Prompt 没说"成功长什么样"

让 AI 写"不错的摘要",反复改 20 分钟没一个能定稿——因为 prompt 没说成功长什么样,模型只在"听着自信"上爬山。本文给一套 4 行可机械化的成功标准模板。

你让模型”写一份不错的会议摘要”。两分钟后回了 600 字。“不错”吗?你读了。还行。你追问”再好一点”。下一版也还行,方向略微不同。你花了 20 分钟在版本间纠结,没一个让你明确说”对了”。问题不在模型。问题在”不错”:你没说不错是什么样,模型默认走”听着自信”,你默认走”看到就知道”。两个定义构造上都错。Prompt 里没有成功标准时,模型是在”自信”上爬山,不是在”有用”上爬山。

本文讲为什么没有成功标准的 prompt 永远卡在改稿地狱里,以及怎么写一个让”完成”机械化的 4 行成功标准块。

常见原因

1. Prompt 写任务,不写门槛

你写了要做什么(“写摘要”)但没写什么算对(长度、必须包含、禁内容)。模型产出”形态合理”的就停。

如何判断:搜 prompt 里”应当”、“通过”、“必须包含”。一个都没有就是没门槛。

2. 质量被默认从上下文知道

“你应该懂我要什么”是真实的内心独白。模型不懂。它没有你团队累积的上下文。

如何判断:你的 prompt 默认和模型共享口味。

3. 多个 stakeholder,多个定义

两个评审对”完成”有分歧。模型平均后谁都不满。

如何判断:评审用不同理由拒绝。

4. 主观形容词冒充标准

“好”、“清晰”、“专业”、“有用”——全不可测。模型用训练分布平均态解读。

如何判断:标准是形容词不是数字/规则/checklist。

5. 每个输入的”成功”不一样

5 行消息的”好摘要”和 50 页报告的”好摘要”不同。标准要随输入规模缩放或写成比例。

如何判断:小输入有效,大输入失效。

动手前先确认

  • 用 5 个 bullet 写出完美输出长什么样。
  • 5 条里哪些可测,哪些只是 vibe。
  • 找一份”完美”历史输出反推标准。
  • 想清楚受众和他们拿这个去做什么。
  • 标准需要随输入规模缩放就提前规划。

需要收集的信息

  • 当前 prompt。
  • 2-3 个你接受的输出 + 2-3 个拒绝的。
  • 每个接受/拒绝的原因(隐性标准)。
  • 下游消费者(人读、parser、数据库)。
  • 模型 + system prompt。

最短修复路径

Step 1:加可测的成功标准块

Prompt 末尾:

## 成功标准
- 长度:80-120 字
- 必含:1 个决议 + 1 个负责人 + 1 个截止日期
- 禁词:"回头说"、"后续跟进"、"有问题告诉我"
- 格式:3 条编号 + 1 个跟进问题
- 语气:第二人称、现在时、不打太极

可测、可强制、易核查。

Step 2:每个形容词换成检查

形容词检查
”好摘要""抓住 3 个关键决议。每条决议 ≤25 字。"
"清晰写作""每句 ≤20 字。无嵌套从句。"
"有用分析""至少 1 条可执行下一步 + 负责人 + 日期。"
"专业语气""无感叹号。无 emoji。无第一人称。"
"彻底审查""引用 3+ 具体行/文件。同时列利弊。“

Step 3:让模型自查

末尾加:

写完后输出 checklist:
- 长度:[实际字数] / 80-120 → 过/不过
- 必含项:[列] → 过/不过
- 禁词使用:[列,或"无"] → 过/不过
- 任何一项不过就重写后再核。

不靠人 reviewer 就能挡掉问题。

Step 4:给”通过”和”不通过”示例

通过:
"1. 决议:周五发布 v2。负责人:Alex。截止:2026-05-26。
2. 决议:发布推文暂缓。负责人:Sam。截止:待定。
3. 决议:错误率 > 2% 回滚。负责人:on-call。截止:持续。
跟进:回滚 playbook 归谁?"

不通过(太泛):
"团队对接下来发版达成一致,会关注指标。Sam 协调沟通。
有问题告诉我。"

对比远强于描述。

Step 5:随输入缩放标准

输入会变的任务:

成功标准(缩放):
- 长度:min(输入字数 / 10, 200) 字
- 必抓:输入每 100 字至少 1 个决议
- ...

Step 6:稳定标准挪到 project / system prompt

老在写一样的标准就挪到 project 指令或 system prompt。省 prompt 空间,跨轮稳定。

怎么确认已经修好

  • 每个输出模型自检都过。
  • 两个评审看同一输出,accept/reject 结论一致。
  • 同 prompt 跑 3 次,3 个都过标准。
  • 你判断”完成没”用不超过 60 秒。
  • “再做好点”不再是主要追问——具体修复取代了。

如果还是没修好

  1. 标准可能还是太虚——自己写一个”通过”示例;你的示例都模棱两可就说明标准松。
  2. 加 1-2 个 pass/fail 示例;few-shot 胜规则。
  3. 任务可能真的没有单一成功——拆子任务、各自给标准。
  4. 评审对过标准的输出仍分歧 = 标准没捕到你真要的东西——修改。

预防建议

  • 默认:每个 prompt 末尾都带可测成功标准块。
  • 按任务类型建模板,标准可复用。
  • 团队任务:先共同定义成功,再交给 AI。
  • 每月审已接受输出:是真过了标准还是只过了 gut?
  • “再做好点”是一个 smell——这话出口就说明标准缺或错。
  • 不知道好是什么样时让模型先给 3 套候选,你选一个。

相关阅读

标签: #排查 #Prompt #Prompt 质量 #Prompt 工程