你让模型”写一份不错的会议摘要”。两分钟后回了 600 字。“不错”吗?你读了。还行。你追问”再好一点”。下一版也还行,方向略微不同。你花了 20 分钟在版本间纠结,没一个让你明确说”对了”。问题不在模型。问题在”不错”:你没说不错是什么样,模型默认走”听着自信”,你默认走”看到就知道”。两个定义构造上都错。Prompt 里没有成功标准时,模型是在”自信”上爬山,不是在”有用”上爬山。
本文讲为什么没有成功标准的 prompt 永远卡在改稿地狱里,以及怎么写一个让”完成”机械化的 4 行成功标准块。
常见原因
1. Prompt 写任务,不写门槛
你写了要做什么(“写摘要”)但没写什么算对(长度、必须包含、禁内容)。模型产出”形态合理”的就停。
如何判断:搜 prompt 里”应当”、“通过”、“必须包含”。一个都没有就是没门槛。
2. 质量被默认从上下文知道
“你应该懂我要什么”是真实的内心独白。模型不懂。它没有你团队累积的上下文。
如何判断:你的 prompt 默认和模型共享口味。
3. 多个 stakeholder,多个定义
两个评审对”完成”有分歧。模型平均后谁都不满。
如何判断:评审用不同理由拒绝。
4. 主观形容词冒充标准
“好”、“清晰”、“专业”、“有用”——全不可测。模型用训练分布平均态解读。
如何判断:标准是形容词不是数字/规则/checklist。
5. 每个输入的”成功”不一样
5 行消息的”好摘要”和 50 页报告的”好摘要”不同。标准要随输入规模缩放或写成比例。
如何判断:小输入有效,大输入失效。
动手前先确认
- 用 5 个 bullet 写出完美输出长什么样。
- 5 条里哪些可测,哪些只是 vibe。
- 找一份”完美”历史输出反推标准。
- 想清楚受众和他们拿这个去做什么。
- 标准需要随输入规模缩放就提前规划。
需要收集的信息
- 当前 prompt。
- 2-3 个你接受的输出 + 2-3 个拒绝的。
- 每个接受/拒绝的原因(隐性标准)。
- 下游消费者(人读、parser、数据库)。
- 模型 + system prompt。
最短修复路径
Step 1:加可测的成功标准块
Prompt 末尾:
## 成功标准
- 长度:80-120 字
- 必含:1 个决议 + 1 个负责人 + 1 个截止日期
- 禁词:"回头说"、"后续跟进"、"有问题告诉我"
- 格式:3 条编号 + 1 个跟进问题
- 语气:第二人称、现在时、不打太极
可测、可强制、易核查。
Step 2:每个形容词换成检查
| 形容词 | 检查 |
|---|---|
| ”好摘要" | "抓住 3 个关键决议。每条决议 ≤25 字。" |
| "清晰写作" | "每句 ≤20 字。无嵌套从句。" |
| "有用分析" | "至少 1 条可执行下一步 + 负责人 + 日期。" |
| "专业语气" | "无感叹号。无 emoji。无第一人称。" |
| "彻底审查" | "引用 3+ 具体行/文件。同时列利弊。“ |
Step 3:让模型自查
末尾加:
写完后输出 checklist:
- 长度:[实际字数] / 80-120 → 过/不过
- 必含项:[列] → 过/不过
- 禁词使用:[列,或"无"] → 过/不过
- 任何一项不过就重写后再核。
不靠人 reviewer 就能挡掉问题。
Step 4:给”通过”和”不通过”示例
通过:
"1. 决议:周五发布 v2。负责人:Alex。截止:2026-05-26。
2. 决议:发布推文暂缓。负责人:Sam。截止:待定。
3. 决议:错误率 > 2% 回滚。负责人:on-call。截止:持续。
跟进:回滚 playbook 归谁?"
不通过(太泛):
"团队对接下来发版达成一致,会关注指标。Sam 协调沟通。
有问题告诉我。"
对比远强于描述。
Step 5:随输入缩放标准
输入会变的任务:
成功标准(缩放):
- 长度:min(输入字数 / 10, 200) 字
- 必抓:输入每 100 字至少 1 个决议
- ...
Step 6:稳定标准挪到 project / system prompt
老在写一样的标准就挪到 project 指令或 system prompt。省 prompt 空间,跨轮稳定。
怎么确认已经修好
- 每个输出模型自检都过。
- 两个评审看同一输出,accept/reject 结论一致。
- 同 prompt 跑 3 次,3 个都过标准。
- 你判断”完成没”用不超过 60 秒。
- “再做好点”不再是主要追问——具体修复取代了。
如果还是没修好
- 标准可能还是太虚——自己写一个”通过”示例;你的示例都模棱两可就说明标准松。
- 加 1-2 个 pass/fail 示例;few-shot 胜规则。
- 任务可能真的没有单一成功——拆子任务、各自给标准。
- 评审对过标准的输出仍分歧 = 标准没捕到你真要的东西——修改。
预防建议
- 默认:每个 prompt 末尾都带可测成功标准块。
- 按任务类型建模板,标准可复用。
- 团队任务:先共同定义成功,再交给 AI。
- 每月审已接受输出:是真过了标准还是只过了 gut?
- “再做好点”是一个 smell——这话出口就说明标准缺或错。
- 不知道好是什么样时让模型先给 3 套候选,你选一个。