多 GPU 没分配上,模型只跑在卡 0
本地 LLM 服务在多 GPU 机器上启动后,所有计算只在第一张卡上进行,其他卡显存占用为零。从 tensor parallel 配置、NVLink、环境变量三个层面给出强制分布的修复方案。
带有该标签的文章
本地 LLM 服务在多 GPU 机器上启动后,所有计算只在第一张卡上进行,其他卡显存占用为零。从 tensor parallel 配置、NVLink、环境变量三个层面给出强制分布的修复方案。
vLLM 服务返回 context length exceeded 错误,请求被拒绝。从 max_model_len 配置、KV cache 分配、prefix caching 三个层面排查并给出具体修复参数。
vLLM 启动时报 CUDA 版本不兼容错误,ImportError 或 undefined symbol。从 CUDA 工具链版本对齐、wheel 选择、conda 环境隔离给出完整修复步骤。