#vllm - 标签 | AI 工具指南

常见问题解决库

本地 LLM 只用一张卡，其余卡 0% 空闲。用 llama.cpp --split-mode、vLLM --tensor-parallel-size、Ollama 自动分布，以及 PCIe 机器需要的 NCCL 参数把它分到多卡上。

常见问题解决库

vLLM 返回 This model's maximum context length is X tokens 报错。合理设置 max-model-len、提高显存配额、启用 fp8 KV cache 并预留输出 token 即可解决。

常见问题解决库

vLLM 启动崩溃，报 undefined symbol、no kernel image 或 CUDA 不匹配。用全新环境加 uv --torch-backend=auto 安装，并对齐驱动、CUDA 与 PyTorch。