本地 embedding 服务在 batch 请求下崩溃
本地 embedding 服务处理单条请求正常,批量请求时 OOM 崩溃或返回 500 错误。从 batch size 限制、显存管理、序列长度截断三个维度定位并修复问题。
带有该标签的文章
本地 embedding 服务处理单条请求正常,批量请求时 OOM 崩溃或返回 500 错误。从 batch size 限制、显存管理、序列长度截断三个维度定位并修复问题。
本地 LLM 在输出中间突然停止,响应不完整,有时在单词或汉字中间截断。定位 max_tokens 限制、EOS token 误触、流式传输缓冲三类根因并给出修复方法。
本地 LLM 第一次请求时等待 10-60 秒才开始输出,后续请求正常。定位模型加载、KV cache 预热、GPU 初始化等冷启动瓶颈并给出可执行的优化方案。
本地 LLM 收到 tool calling 请求后,返回纯文本描述而不是 JSON 格式的工具调用,或者格式错误导致解析失败。从模型能力、prompt 格式、解析容错三个层面给出修复方案。
本地 RAG 知识库重建时间从预期的几分钟变成数小时。从 embedding batch 策略、向量库写入、文档分块三个瓶颈排查并给出可量化的提速方案。
Ollama 启动后模型在 CPU 上运行,生成速度极慢。定位 CUDA/ROCm 驱动缺失、环境变量遮蔽、多显卡配置等根因并给出可执行修复命令。
Ollama pull 模型时进度条停在某个百分比不动,重试后依然卡住。分析网络、磁盘、注册表三类原因并给出可直接执行的修复步骤。
ollama pull 命令返回成功,但 ollama list 输出里没有这个模型,运行时报 model not found。定位 manifest 写入失败、多 OLLAMA_MODELS 路径、权限问题等根因。
执行 ollama serve 时报 address already in use,端口 11434 被占用无法启动。快速定位占用进程、清理僵尸实例、修改默认端口的完整操作步骤。
在 Ollama Modelfile 中设置了 SYSTEM prompt,但模型运行时完全不遵守设定的人格或行为规则。定位 template 覆盖、API 参数优先级、chat template 兼容性三类根因。