#llama-cpp - 标签 | AI 工具指南

常见问题解决库

llama.cpp 从 NFS、SMB 或 CIFS 网络盘加载 GGUF 模型时崩溃或卡顿。最快修复：加 --no-mmap（DirectIO 开着时再加 --no-direct-io），或把模型拷到本地盘。

常见问题解决库

从 Q5_K_M 或 Q8_0 换到 Q4_0、IQ4_XS 或更低量化后输出变差：选对量化档位、修复劣质重量化文件，并用 perplexity 验证。

常见问题解决库

本地 LLM 把你的问题原样吐回、在回复里夹着 [INST] 或 <|im_start|> 标签、或者一句话重复个没完，这都是 chat-template 不匹配。教你找到模型真正的模板，并强制引擎使用它。

常见问题解决库

本地模型在原生上下文长度内正常，超过后就开始重复、乱码。手把手诊断并修复 llama.cpp 和 vLLM 的 RoPE scaling（YaRN、llama3、rope_theta）配置。

常见问题解决库

应用层的 token 计数与本地 llama.cpp 或 Ollama 服务对不上，导致上下文溢出或静默截断。用服务端自带的 tokenizer 作为基准来消除漂移。