你写了个很认真的 prompt,标准三条:“吸引、专业、创新”。输出严格来说全满足。但完全没法用:那个”吸引人的钩子”像 LinkedIn 帖,“专业”语气冷冰冰,“创新”的角度和上个月三个对手用过的一模一样。模型没失败——你的标准不算标准。它们是 vibe。模型把每个形容词解读成训练分布的平均态,平均态正是你最不想要的。
本文讲怎么识别”标准不可测”,以及怎么把每条标准翻成模型和评审都能一致执行的规则。
常见原因
1. 标准是形容词不是规则
“吸引”、“专业”、“创新”、“自然”、“精致”这些没法检验。两个评审会吵起来,模型也没锚。
如何判断:把标准念出声。如果你说不出 10 秒内能做的检查,它就是形容词不是规则。
2. 没 pass / fail 示例
你只说”专业”,不给”这就是专业”和”这就不是”的例子,模型只能用自己的定义。
如何判断:你的 prompt 里 0 个可接受示例、0 个拒绝示例。
3. 标准之间偷偷冲突
“创新但符合品牌”、“吸引但专业”、“全面但简洁”——每对都有张力,你没解决。模型选了一边,常常是错的一边。
如何判断:找两条方向相反的标准。
4. 标准假设共享口味
你写”做出我们品牌的感觉”但没定义”我们品牌”。模型没读过你的 style guide。
如何判断:标准引用了只有你团队知道的东西。
5. 没排序
“所有标准同样重要”几乎都是假话。不排序就被平均,平均就平庸。
如何判断:模型要取舍时,舍掉了最不该舍的那条。
动手前先确认
- 列出当前 prompt 里每条标准。
- 给每条起草一个外行 10 秒能做的测试。
- 最难的两条配 1 个”通过”和 1 个”不通过”示例。
- 找出哪几条会冲突。
- 重新 prompt 之前先定好排序。
需要收集的信息
- 当前 prompt + 全部标准。
- 一份接受 + 一份拒绝的输出,分别标注。
- 接受/拒绝的理由(用来反推规则)。
- 模型、temperature、system prompt。
- 评审之间是否真的对每条标准达成一致(往往没有)。
最短修复路径
Step 1:把每个形容词操作化
口味词翻成可测规则:
| 形容词 | 可测规则 |
|---|---|
| ”吸引" | "开头是问句、统计数字或具体场景。不能是’在当今……’。" |
| "专业" | "无感叹号、无 emoji、不用第一人称复数(‘我们’)、不用口语缩略。" |
| "创新" | "至少提到一个具体命名的方法/工具/模式,且不在行业 top-5 清单里。" |
| "简洁" | "全文 ≤200 字。每句 ≤20 字。" |
| "自然" | "句长方差:至少一句 ≤10 字,至少一句 ≥20 字。“ |
Step 2:给一个通过 + 一个不通过示例
最棘手的标准配上:
可接受的"吸引"开头示例:
"73% 的团队第一次 AI 落地就放弃了。活下来的人做对了什么?"
不可接受的"吸引"开头示例:
"在快速发展的人工智能时代,组织正面临前所未有的机会。"
可接受的用了具体数字 + 具体框架。不可接受的全是泛词 + 商业 buzz。
示例胜过 100 字形容词。
Step 3:给标准排序
声明优先级和冲突时的取舍:
优先级(满足不了就从下往上砍):
1. 事实正确(绝不违反)
2. ≤200 字
3. 上面操作化的"吸引"规则
4. 上面操作化的"专业"规则
5. 品牌语气锚
"吸引"和"专业"冲突时,优先"专业"。
Step 4:让模型自审
末尾加:
写完后输出 checklist:
- 标准 1(事实正确):是/否 + 证据
- 标准 2(≤200 字):是/否 + 字数
- 标准 3(吸引规则):是/否 + 满足了哪条
- 标准 4(专业规则):是/否 + 任何违反项
任何一项为否就重写后再核。
Step 5:主观标准用锚
天生主观的标准(“我们品牌语气”)给 2-3 句典型品牌文案做语气锚。模型仿锚比跟形容词稳。
Step 6:用边界输入测
喂一个两条标准明显冲突的输入。如果模型还在试图同时满足,说明优先级没落地。再排一遍序。
怎么确认已经修好
- 两个评审用你的标准独立审同一篇输出,结论一致。
- 模型自审 checklist 全通过。
- 同 prompt 跑 3 次,3 次都通过标准。
- 你故意写的”差”输出会被规则挡掉。
如果还是没修好
- 标准可能还是不可测——砍掉最虚的一条,看质量是否提升。
- 还松的标准再补 pass/fail 示例。
- 改用 few-shot:3-5 个接受样本作为锚,比规则更稳。
- 标准在你关心的输入上真的冲突,spec 不可能——要么改输入要么改标准。
预防建议
- 默认:每条标准必须让外行 10 秒能测。
- 每个任务类型维护一份操作化标准库(博客、邮件、摘要、code review)。
- 每个常做任务存一份”金本位”输出,做 few-shot 锚。
- 每个 prompt 都显式排序。“同等重要”就是没想清楚。
- 每月审一次已接受的输出:是真过了规则,还是只过了你的 gut?