常见问题解决库

本地 LLM 服务在多 GPU 机器上启动后,所有计算只在第一张卡上进行,其他卡显存占用为零。从 tensor parallel 配置、NVLink、环境变量三个层面给出强制分布的修复方案。

常见问题解决库

vLLM 服务返回 context length exceeded 错误,请求被拒绝。从 max_model_len 配置、KV cache 分配、prefix caching 三个层面排查并给出具体修复参数。