#ollama - 标签 | AI 工具指南

常见问题解决库

Ollama、llama-server、vLLM 或 sentence-transformers 批量 embedding 时 OOM 崩溃或返回 500。从 batch size、num_batch、序列长度、并发四方面定位修复，附确切参数。

常见问题解决库

本地模型生成到一半停在单词或汉字中间，没有 EOS、没有报错。逐一排查 num_predict 上限、按显存推算的 num_ctx 默认值、stop 序列、代理缓冲与 UTF-8 字节切割。

常见问题解决库

本地 LLM 加载后首 token 要等 30-120 秒，之后就很快。定位磁盘 I/O、模型被卸载、CUDA/Metal shader 编译、KV cache 分配等冷启动瓶颈，并把模型常驻内存。

常见问题解决库

本地 LLM 返回纯文本描述而不是 JSON 工具调用，或格式错误导致解析失败。用支持 tool calling 的模型、llama-server 的 --jinja 参数和 Ollama 的 format JSON Schema 约束彻底修好。

常见问题解决库

本地向量索引重建从几分钟拖到数小时？修正 batch 大小、跳过未变文档、批量写入向量库、合理设置 chunk 大小，把 6 小时降到 15 分钟内。

常见问题解决库

ollama pull 停在某个百分比、进度条往回跑、或报 max retries exceeded: EOF。分析网络、磁盘、partial 分片三类原因，给出可干净续传的修复步骤。

常见问题解决库

Ollama 启动后模型在 CPU 上运行，生成极慢。读懂 inference-compute 日志，定位驱动、CUDA、ROCm 不匹配，强制开启 GPU 卸载。

常见问题解决库

ollama pull 显示 success，但 ollama list 里没有这个模型，运行时报 model not found。修复 OLLAMA_MODELS 路径分裂、ollama 服务用户不一致、manifest 损坏等根因。

常见问题解决库

Ollama Modelfile 的 SYSTEM 设置对模型行为毫无效果。最快修复：确认 TEMPLATE 真的渲染了 .System、排查 RENDERER/PARSER 继承覆盖、阻止客户端覆盖 system 消息。

常见问题解决库

Ollama 因 11434 端口被占用而无法启动。教你定位占用进程、释放端口，或把 Ollama 换到其他端口——macOS、Linux、Windows 的精确命令。