评判标准模糊导致答案弱:4 个原因 + 对症修复

你给了标准,但标准本身含糊——"吸引"、"专业"、"创新"——模型只能自由解读。

你写了个很认真的 prompt,标准三条:“吸引、专业、创新”。输出严格来说全满足。但完全没法用:那个”吸引人的钩子”像 LinkedIn 帖,“专业”语气冷冰冰,“创新”的角度和上个月三个对手用过的一模一样。模型没失败——你的标准不算标准。它们是 vibe。模型把每个形容词解读成训练分布的平均态,平均态正是你最不想要的。

本文讲怎么识别”标准不可测”,以及怎么把每条标准翻成模型和评审都能一致执行的规则。

常见原因

1. 标准是形容词不是规则

“吸引”、“专业”、“创新”、“自然”、“精致”这些没法检验。两个评审会吵起来,模型也没锚。

如何判断:把标准念出声。如果你说不出 10 秒内能做的检查,它就是形容词不是规则。

2. 没 pass / fail 示例

你只说”专业”,不给”这就是专业”和”这就不是”的例子,模型只能用自己的定义。

如何判断:你的 prompt 里 0 个可接受示例、0 个拒绝示例。

3. 标准之间偷偷冲突

“创新但符合品牌”、“吸引但专业”、“全面但简洁”——每对都有张力,你没解决。模型选了一边,常常是错的一边。

如何判断:找两条方向相反的标准。

4. 标准假设共享口味

你写”做出我们品牌的感觉”但没定义”我们品牌”。模型没读过你的 style guide。

如何判断:标准引用了只有你团队知道的东西。

5. 没排序

“所有标准同样重要”几乎都是假话。不排序就被平均,平均就平庸。

如何判断:模型要取舍时,舍掉了最不该舍的那条。

动手前先确认

  • 列出当前 prompt 里每条标准。
  • 给每条起草一个外行 10 秒能做的测试。
  • 最难的两条配 1 个”通过”和 1 个”不通过”示例。
  • 找出哪几条会冲突。
  • 重新 prompt 之前先定好排序。

需要收集的信息

  • 当前 prompt + 全部标准。
  • 一份接受 + 一份拒绝的输出,分别标注。
  • 接受/拒绝的理由(用来反推规则)。
  • 模型、temperature、system prompt。
  • 评审之间是否真的对每条标准达成一致(往往没有)。

最短修复路径

Step 1:把每个形容词操作化

口味词翻成可测规则:

形容词可测规则
”吸引""开头是问句、统计数字或具体场景。不能是’在当今……’。"
"专业""无感叹号、无 emoji、不用第一人称复数(‘我们’)、不用口语缩略。"
"创新""至少提到一个具体命名的方法/工具/模式,且不在行业 top-5 清单里。"
"简洁""全文 ≤200 字。每句 ≤20 字。"
"自然""句长方差:至少一句 ≤10 字,至少一句 ≥20 字。“

Step 2:给一个通过 + 一个不通过示例

最棘手的标准配上:

可接受的"吸引"开头示例:
  "73% 的团队第一次 AI 落地就放弃了。活下来的人做对了什么?"

不可接受的"吸引"开头示例:
  "在快速发展的人工智能时代,组织正面临前所未有的机会。"

可接受的用了具体数字 + 具体框架。不可接受的全是泛词 + 商业 buzz。

示例胜过 100 字形容词。

Step 3:给标准排序

声明优先级和冲突时的取舍:

优先级(满足不了就从下往上砍):
1. 事实正确(绝不违反)
2. ≤200 字
3. 上面操作化的"吸引"规则
4. 上面操作化的"专业"规则
5. 品牌语气锚

"吸引"和"专业"冲突时,优先"专业"。

Step 4:让模型自审

末尾加:

写完后输出 checklist:
- 标准 1(事实正确):是/否 + 证据
- 标准 2(≤200 字):是/否 + 字数
- 标准 3(吸引规则):是/否 + 满足了哪条
- 标准 4(专业规则):是/否 + 任何违反项
任何一项为否就重写后再核。

Step 5:主观标准用锚

天生主观的标准(“我们品牌语气”)给 2-3 句典型品牌文案做语气锚。模型仿锚比跟形容词稳。

Step 6:用边界输入测

喂一个两条标准明显冲突的输入。如果模型还在试图同时满足,说明优先级没落地。再排一遍序。

怎么确认已经修好

  • 两个评审用你的标准独立审同一篇输出,结论一致。
  • 模型自审 checklist 全通过。
  • 同 prompt 跑 3 次,3 次都通过标准。
  • 你故意写的”差”输出会被规则挡掉。

如果还是没修好

  1. 标准可能还是不可测——砍掉最虚的一条,看质量是否提升。
  2. 还松的标准再补 pass/fail 示例。
  3. 改用 few-shot:3-5 个接受样本作为锚,比规则更稳。
  4. 标准在你关心的输入上真的冲突,spec 不可能——要么改输入要么改标准。

预防建议

  • 默认:每条标准必须让外行 10 秒能测。
  • 每个任务类型维护一份操作化标准库(博客、邮件、摘要、code review)。
  • 每个常做任务存一份”金本位”输出,做 few-shot 锚。
  • 每个 prompt 都显式排序。“同等重要”就是没想清楚。
  • 每月审一次已接受的输出:是真过了规则,还是只过了你的 gut?

相关阅读

标签: #排查 #Prompt #Prompt 质量 #Prompt 工程