llama.cpp 换更激进量化后质量明显下降

Q: IQ4_XS 到底比 Q4_K_M 好还是差？

有好的 imatrix 时，`IQ4_XS` 的质量大致与 `Q4_K_M` 相当，但尺寸更小（约 4.46 bits/weight 对 4.89，8B 模型约 4.17 GB 对 4.58 GB）。没有好的 imatrix 时通常更差。I-quant 在 CPU 上的解码也比 K-quant 慢。如果你控制不了 imatrix，优先选 `Q4_K_M`。

Q: 代码或数学助手的最低量化档是多少？

代码和数学是对量化最敏感的负载——token 精度会影响括号匹配、缩进和生僻标识符的召回。7B/8B 的代码模型用 `Q5_K_M` 或更高，`Q4_K_M` 是绝对底线。

Q: temperature 会影响量化产生的瑕疵吗？

会，但方式有误导性。在 temperature 0（贪心）下，量化误差走的是确定性路径，是**看清**损失最干净的方式。temperature 高时采样噪声会掩盖瑕疵，同时引入随机性，所以靠主观聊天感受去衡量很不靠谱。用 perplexity 或固定的 temp 0 prompt 来对比量化。

Q: 我下了个更差的量化。能自己生成 imatrix 吗？

能，前提是你有 `fp16` 源头。先跑 `./llama-imatrix -m model-f16.gguf -f calibration_data.txt -o imatrix.dat --chunks 128`，再跑 `./llama-quantize --imatrix imatrix.dat model-f16.gguf model-IQ4_XS.gguf IQ4_XS`。你需要原始权重，以及足够装下 fp16 模型的内存/显存。

从 Q5_K_M 或 Q8_0 换到 Q4_0、IQ4_XS 或更低量化后输出变差：选对量化档位、修复劣质重量化文件，并用 perplexity 验证。

发布于: 2026/05/25 更新于: 2026/06/21 作者: AI Productivity Guide Team 🌐 查看英文版本

你为了塞进更紧张的显存预算把模型换成了更小的量化——比如把 Llama 3.1 70B 从 Q5_K_M 降到 Q4_0，或者把 8B 从 Q8_0 降到 IQ4_XS——结果没几个 prompt 就发现输出明显变差：开始重复打转、以前答对的事实现在答错、代码漏掉括号，严重时生成到一半直接滑向胡言乱语。这是真实存在的”量化悬崖”，不是心理作用，而且是可以预测的。

最快的修复： 别再用 legacy 量化（Q4_0、Q4_1、Q5_0、Q5_1），改用 Q4_K_M——文件大小几乎一样，但质量高得多。如果你换的是 IQ 量化（IQ4_XS、IQ3_M 等），先确认它是带重要性矩阵（importance matrix，即 imatrix）构建的——没有 imatrix 的 I-quant 往往比同尺寸的 K-quant 还差。另外，永远不要从已经量化过的 GGUF 再量化；始终从原始的 fp16/bf16 权重出发。

为什么 Q5_K_M → Q4_0 的落差感觉远不止”少一个 bit”？因为 Q4_0 用的是均匀标量量化，对每个权重一视同仁；而 K-quant（Q4_K_M、Q5_K_M、Q6_K）用的是混合精度分块，会把额外的 bit 花在最敏感的权重上。

先判断你属于哪一类

症状	最可能的原因	跳到
换到 `Q4_0` / `Q5_0` / `Q5_1` 后输出明显变差	legacy 量化悬崖	原因 1 / Step 5
下载的 `IQ` GGUF，比同尺寸 K-quant 还差	缺失或错误的 imatrix	原因 3 / Step 3
你对已有的 GGUF 又量化了一次	二次量化	原因 5 / Step 2
7B/8B 模型在 `Q2_K` 或 `Q3_K_S` 下彻底崩坏	小模型 + 激进量化	原因 6 / Step 4
短上下文正常，长上下文变成垃圾	量化 KV cache 与 flash-attn 的交互	原因 7
同一量化别人没问题，只有你的模型坏	架构敏感（MoE、head 维度）	原因 7

常见原因

按影响从大到小排列。

1. 跨过了 K-quant 与 legacy 量化之间的悬崖

llama.cpp 的量化梯度在 K-quant 家族（Q4_K_S、Q4_K_M、Q5_K_S、Q5_K_M、Q6_K）和 legacy 均匀量化（Q4_0、Q4_1、Q5_0、Q5_1）之间有一道陡峭的悬崖。K-quant 用分块量化，对敏感的权重簇混用 4-bit 和 6-bit 精度；Q4_0 则对所有权重一视同仁。在文件大小几乎相同的前提下，Q4_K_M 明显优于 Q4_0。

怎么判断：用一个可重复的基准 prompt（比如固定 200 token 的续写）在两种量化下、temperature 设为 0 各跑一遍。在同一套基础权重上，Q4_0 的 perplexity 会明显高于 Q4_K_M——以 7B 模型为例，公开数据中 Q4_0 相对 F16 大约 +0.25 ppl，而 Q4_K_M 只有约 +0.05 ppl（截至 2026 年 6 月），文件大小几乎一样却差出约 5 倍误差。

2. embedding 层和 output 层被过度量化

即便在 K-quant 家族内部，token embedding 层和最后的 output/lm_head 层也是对量化误差最敏感的部分。用 llama-quantize 时加 --pure 会关闭 K-quant 的混合精度，强制所有 tensor 用同一个位宽——这通常比默认的混合精度方案更伤质量。

怎么判断：去掉 --pure 重新量化再对比。用 ./llama-perplexity -m model_q4km.gguf -f wiki.test.raw 前后各跑一次；对 7B 模型来说，相对默认混合方案 perplexity 上升超过约 0.05 就有意义（典型的 Q4_K_M 相对 F16 大约 +0.05，翻一倍就是真正的退步）。

3. IQ（重要性矩阵）量化没用对的 imatrix 构建

I-quant——IQ2_XS、IQ3_M、IQ4_XS 等——的质量来自一份在那个具体基础模型的校准数据上算出来的重要性矩阵（imatrix）。如果你下载的 GGUF 根本没带 imatrix，或者带的是另一个模型的 imatrix，那 bit 分配就是错的，I-quant 可能比同尺寸的 K-quant 还差。知名的 imatrix 上传者（如 Bartowski、Unsloth）通常会注明这一点；匿名上传的往往不会。

怎么判断：检查 GGUF 元数据里有没有 quantize.imatrix.file / quantize.imatrix.dataset 字段。用 ./llama-quantize --help 确认 --imatrix 参数，或用 Python 的 gguf reader 导出元数据（见 Step 1）。

4. 用 base 模型的 imatrix 去量化微调模型

如果模型是 instruct/微调变体（比如 Llama-3.1-70B-Instruct），imatrix 就应该从 chat 格式的 prompt 算出来，而不是通用网页文本。base 模型的 imatrix 没法保护微调时强化出来的注意力模式，所以哪怕原始 perplexity 看着没问题，chat 行为也会退化。

怎么判断：查 imatrix 的校准来源。如果它来自 Wikitext/Wikipedia 语料，而你的模型是 instruct 变体，就用 chat 格式的样本重新生成 imatrix。

5. 这个 GGUF 是从已量化文件再量化来的（二次量化）

如果你下载了一个 Q8_0（或任意）GGUF，再用 llama-quantize 把它压成 Q4_K_M，量化误差就叠加了两次。llama-quantize 默认甚至会拒绝这么做（报错 requantizing from type ... is disabled），除非你加 --allow-requantize——正是因为它会损质量。正确的源头永远是原始的 fp16/bf16 HuggingFace 权重。

怎么判断：看你喂给 llama-quantize 的是什么。如果输入是一个 .gguf 而不是刚从 safetensors 转出来的 f16/bf16 GGUF，那你就是在二次量化。GGUF 的 general.source.url 或量化元数据也能暴露出”来源本身就已量化”。

6. 13B 以下的模型用 `Q2_K` / `Q3_K_S`

小模型对激进量化的容忍度远不如 70B 模型。7B 在 Q2_K 下损失太多表达能力，多步推理会直接崩。“小模型 + 激进量化”是最脆弱的组合。

怎么判断：如果你的模型在约 13B 以下，又用了 Q2_K、Q3_K_S 或 Q3_K_M，退化是意料之中的。至少升到 Q4_K_M，代码或数学场景用 Q5_K_M。

7. 问题在架构或 KV cache 交互，而不在权重

有些质量下降根本和权重量化无关：

MoE 模型（Mixtral、DeepSeek-MoE）：expert 权重比 dense 权重对量化更敏感——MoE 保持 Q5_K_M 或更高。
量化 KV cache + flash attention：量化的 KV cache（--cache-type-k q8_0 等）只在 flash attention 开启时才有意义（否则 llama.cpp 每一步注意力都要反量化，反而更慢，省下的也白省），而且截至 2026 年中，仍有 llama.cpp issue 在持续报告 CUDA 上量化 KV 的 flash-attn 报错、NaN 注意力、或大上下文 decode 退步——例如 issue #24166，在很大的 -c 下 q8_0 KV cache 会把 CUDA flash-attn 的 scratch 分配撑大、拖垮显存。如果模型短上下文正常、长上下文却变成垃圾（或卡顿抖动），嫌疑就在这里，而不是权重量化。
head 维度不匹配：n_embd_head_k != n_embd_head_v 的模型（比如某些 DeepSeek 变体）会悄悄禁用 flash attention，从而改变行为。

怎么判断：把 KV cache 保持在 f16（默认值），并设 --flash-attn off；如果质量回来了，那就是 KV/flash-attn 这条路径的问题，不是权重。

最短修复路径

Step 1：检查 GGUF——有没有 imatrix？是不是二次量化？

pip install gguf

python3 -c "
import gguf
r = gguf.GGUFReader('model.gguf')
for f in r.fields.values():
    if 'quantize' in f.name or 'source' in f.name or 'general.file_type' in f.name:
        print(f.name)
"

任何 IQ 量化都应该看到 quantize.imatrix.file / quantize.imatrix.dataset，并且 general.source.url 指向原始 HF 仓库——而不是另一个 GGUF。

Step 2：用 perplexity 建立质量基线

# llama.cpp CI 用的小型 wikitext 样本
wget https://huggingface.co/datasets/ggml-org/ci/resolve/main/wikitext-2-raw-v1.zip
unzip wikitext-2-raw-v1.zip

# 在 temperature 0 下逐个量化测 perplexity（越低越好）
./llama-perplexity -m models/model.Q5_K_M.gguf -f wikitext-2-raw/wiki.test.raw --ctx-size 512
./llama-perplexity -m models/model.Q4_0.gguf    -f wikitext-2-raw/wiki.test.raw --ctx-size 512

作为参考，7B 模型相对 F16 的 perplexity 增量大致是（截至 2026 年 6 月）：Q8_0 +0.0004，Q6_K +0.0044，Q5_K_M +0.0142，Q4_K_M +0.0535，而 legacy 的 Q4_0 约 +0.25——在文件大小几乎相同的情况下，误差是 Q4_K_M 的约 5 倍。Q4_0 的数值明显高于 Q4_K_M，就坐实了 legacy 量化悬崖。

Step 3：从 fp16 源头重新量化，而不是从另一个 GGUF

# 1) 把 HF 权重转成 fp16 GGUF（允许的 outtype：f32, f16, bf16, q8_0, ...）
python convert_hf_to_gguf.py \
  /path/to/Meta-Llama-3.1-70B-Instruct \
  --outtype f16 \
  --outfile llama3.1-70b-instruct-f16.gguf

# 2) 从 fp16 GGUF 量化到 Q4_K_M（不是从 Q8_0）
./llama-quantize \
  llama3.1-70b-instruct-f16.gguf \
  llama3.1-70b-instruct-Q4_K_M.gguf \
  Q4_K_M

如果你手里只有量化过的 GGUF，llama-quantize 会拒绝（报 requantizing from type ... is disabled），除非你加 --allow-requantize——这个 flag 是警示信号，不是解决方案。重新下载或重新转出 fp16 源头。

Step 4：为 IQ 量化生成正确的 imatrix

# 用有代表性的数据构建重要性矩阵。
# instruct 模型要用 chat 格式的 prompt（100+ 条多样化样本），不要用原始网页文本。
./llama-imatrix \
  -m llama3.1-70b-instruct-f16.gguf \
  -f calibration_data_instruct.txt \
  -o llama3.1-70b-instruct.imatrix \
  --ctx-size 512 \
  --chunks 128

# 带着 imatrix 量化到 IQ 档
./llama-quantize \
  --imatrix llama3.1-70b-instruct.imatrix \
  llama3.1-70b-instruct-f16.gguf \
  llama3.1-70b-instruct-IQ4_XS.gguf \
  IQ4_XS

Step 5：按你的显存挑对量化档位

下面的文件大小是 Llama-3.1 8B 和 70B 在 2026 年 6 月的实测值；记得给 KV cache 和上下文留 1-3 GB 余量。

70B 模型：
  ~50 GB 显存 → Q5_K_M (49.9 GB) — 实际可用的最佳质量
  ~44 GB 显存 → Q4_K_M (42.5 GB) — 优秀
  ~40 GB 显存 → IQ4_XS (~38 GB，需要好的 imatrix) — 接近 Q4_K_M，更小
  24 GB 显存  → Q4_K_M 配 CPU/-ngl 卸载 — 能用，但慢

8B 模型：
  16 GB 显存 → Q8_0 (8.54 GB)  — 近乎无损
  12 GB 显存 → Q6_K (6.60 GB)  — 几乎等同 F16
  10 GB 显存 → Q5_K_M (5.73 GB) — 优秀
  8 GB 显存  → Q4_K_M (4.92 GB) — 不错（代码/数学的底线）

Step 6：避开 `Q4_0`——用 `Q4_K_M` 或带 imatrix 的 `IQ4_XS`

# Q4_K_M：混合 K-quant 分块——在差不多的大小下比 Q4_0 好得多
./llama-quantize model-f16.gguf model-Q4_K_M.gguf Q4_K_M

# IQ4_XS：比 Q4_K_M 小约 0.4 bpw，在带 imatrix 构建时质量相当
./llama-quantize --imatrix model.imatrix model-f16.gguf model-IQ4_XS.gguf IQ4_XS

Step 7：排除 KV-cache / flash-attn 这条路径

# 如果只在长上下文下变差，就用默认的 f16 KV cache，并强制关闭 flash-attn 测试。
# （--flash-attn 现在取 on|off|auto，默认 auto。）
./llama-cli -m model-Q4_K_M.gguf --flash-attn off -c 8192 -p "long-context test prompt" -n 200

如果加上 --flash-attn off 和 f16 KV cache 后质量恢复，那退化就出在量化 KV/flash-attn 这条路径，而不是权重量化——把 KV cache 保持在 f16，或者固定到一个没有该 bug 的 llama.cpp 版本。

如何确认已经修好

perplexity 回到合理区间：新 GGUF 用 llama-perplexity 测出的、相对 F16 的增量接近 Step 2 的参考值（好的 Q4_K_M 在 7B 上约 +0.05）。
在你的真实任务上做 temperature 0 的 A/B：用 5-10 个固定 prompt（一个代码、一个数学、一个事实类）分别跑新量化和旧的高 bit 量化；差距应该很小，而不是一道悬崖。
temp 0 下没有重复打转：贪心解码约 300 token 不应该塌缩成一句反复重复的话。
元数据自检：文件对任何 IQ 量化都显示 imatrix 字段，且 general.source.url 指向 HF（而不是 GGUF）。

预防建议

永远不要从已量化的 GGUF 量化——始终从 fp16/bf16 HuggingFace 权重出发。把 --allow-requantize 当成红旗。
优先选有文档说明的 imatrix 上传者（Bartowski、Unsloth 等）发布的 GGUF；信任任何 IQ 量化前先核对 quantize.imatrix.* 元数据。
生产环境别用 Q4_0、Q5_0、Q5_1——在相同或更小的尺寸下，Q4_K_M 或带 imatrix 的 IQ4_XS 几乎总是更好。
约 13B 以下的模型，以 Q4_K_M 为底线，代码或数学用 Q5_K_M；把 Q2_K/Q3_K_S 留给 70B 级别的模型。
MoE 模型（Mixtral、DeepSeek-MoE）保持 Q5_K_M 或更高。
在备份盘上留一份 fp16 GGUF，这样重新量化时不用重新下载，并在每个量化文件旁边记下 imatrix 来源和 chunk 数。
提交某个档位前，先为每个模型建一张小的 perplexity 表（Q4_K_M/Q5_K_M/Q6_K）。

常见问答 (FAQ)

Q：IQ4_XS 到底比 Q4_K_M 好还是差？ A：有好的 imatrix 时，IQ4_XS 的质量大致与 Q4_K_M 相当，但尺寸更小（约 4.46 bits/weight 对 4.89，8B 模型约 4.17 GB 对 4.58 GB）。没有好的 imatrix 时通常更差。I-quant 在 CPU 上的解码也比 K-quant 慢。如果你控制不了 imatrix，优先选 Q4_K_M。

Q：代码或数学助手的最低量化档是多少？ A：代码和数学是对量化最敏感的负载——token 精度会影响括号匹配、缩进和生僻标识符的召回。7B/8B 的代码模型用 Q5_K_M 或更高，Q4_K_M 是绝对底线。

Q：temperature 会影响量化产生的瑕疵吗？ A：会，但方式有误导性。在 temperature 0（贪心）下，量化误差走的是确定性路径，是看清损失最干净的方式。temperature 高时采样噪声会掩盖瑕疵，同时引入随机性，所以靠主观聊天感受去衡量很不靠谱。用 perplexity 或固定的 temp 0 prompt 来对比量化。

Q：我下了个更差的量化。能自己生成 imatrix 吗？ A：能，前提是你有 fp16 源头。先跑 ./llama-imatrix -m model-f16.gguf -f calibration_data.txt -o imatrix.dat --chunks 128，再跑 ./llama-quantize --imatrix imatrix.dat model-f16.gguf model-IQ4_XS.gguf IQ4_XS。你需要原始权重，以及足够装下 fp16 模型的内存/显存。

Q：降档之后，更好的 prompt 能把质量救回来吗？ A：只能部分救回。更紧凑、约束更强的 prompt 和思维链能减少模型走上退化概率路径的频率，但救不回丢失的精度。先修好量化档位，把 prompt 当成小幅补强。

先判断你属于哪一类

常见原因

1. 跨过了 K-quant 与 legacy 量化之间的悬崖

2. embedding 层和 output 层被过度量化

3. IQ（重要性矩阵）量化没用对的 imatrix 构建

4. 用 base 模型的 imatrix 去量化微调模型

5. 这个 GGUF 是从已量化文件再量化来的（二次量化）

6. 13B 以下的模型用 Q2_K / Q3_K_S

7. 问题在架构或 KV cache 交互，而不在权重

最短修复路径

Step 1：检查 GGUF——有没有 imatrix？是不是二次量化？

Step 2：用 perplexity 建立质量基线

Step 3：从 fp16 源头重新量化，而不是从另一个 GGUF

Step 4：为 IQ 量化生成正确的 imatrix

Step 5：按你的显存挑对量化档位

Step 6：避开 Q4_0——用 Q4_K_M 或带 imatrix 的 IQ4_XS

Step 7：排除 KV-cache / flash-attn 这条路径

如何确认已经修好

预防建议

常见问答 (FAQ)

相关阅读

相关文章

llama.cpp 在网络盘上 mmap 失败

LM Studio 加载模型时报 out of memory

本地 embedding 服务在 batch 请求下崩溃

Chat-Template 不匹配导致本地 LLM 输出乱码

多 GPU 没分配上，模型只跑在卡 0

本地模型输出在 token 中间被截断（Ollama / llama.cpp）

6. 13B 以下的模型用 `Q2_K` / `Q3_K_S`

Step 6：避开 `Q4_0`——用 `Q4_K_M` 或带 imatrix 的 `IQ4_XS`