常见问题解决库

本地 LLM 服务在多 GPU 机器上启动后,所有计算只在第一张卡上进行,其他卡显存占用为零。从 tensor parallel 配置、NVLink、环境变量三个层面给出强制分布的修复方案。

常见问题解决库

本地 LLM 收到 tool calling 请求后,返回纯文本描述而不是 JSON 格式的工具调用,或者格式错误导致解析失败。从模型能力、prompt 格式、解析容错三个层面给出修复方案。

常见问题解决库

在 Apple Silicon 上用 mlx_lm.convert 将 HuggingFace 模型转换为 MLX 格式时报错或转换后无法加载。定位架构支持、内存不足、量化配置三类失败原因并给出修复步骤。

常见问题解决库

vLLM 服务返回 context length exceeded 错误,请求被拒绝。从 max_model_len 配置、KV cache 分配、prefix caching 三个层面排查并给出具体修复参数。