Prompt 要"最好"但没定决策规则

没决策规则,"最好"就是模型觉得"听着自信"的那个。

你问”这个项目用什么数据库最好”,得到一个听着挺自信的选择。同一 prompt 跑三次——三个不同的”最好”。每个都有合理理由。理由全都跟你的真实项目无关。模型没失败。你问”最好”但没给决策规则,它就挑训练数据里”最好的数据库”这个 token 关联里正向最强的那个,通常是模型训练时正流行的那个。没有显式权重、标准、tie-breaker 时,“最好”就是”听着自信的”——自信不等于正确。

本文讲怎么把”最好”翻成显式决策规则,产出一致且可辩护的答案。

常见原因

1. 没指定维度

“最好”沿什么维度?成本、延迟、可扩展、团队熟悉度?你没说。模型自己挑——通常挑训练数据里情感最强的那条。

如何判断:你的 prompt 没维度词(“最便宜”、“最快”、“最稳”)。

2. 多标准、无权重

你列了多个标准——“要又快又便宜又好维护”——但没说哪个最重。模型选先验情感最强的那条。

如何判断:2+ 标准没顺序、没权重。

3. 没说要忽略什么

不写”忽略品牌口碑”或”忽略 vibe”,这些因素就悄悄主导。品牌识别是巨大的隐性权重。

如何判断:模型选了 AWS / OpenAI / Stripe 等”通用最受欢迎”选项,但你的输入数据并不支持。

4. 没 tie-breaker

两个选项分接近时模型挑先提的或训练数据里更多的。随机。

如何判断:同 prompt 多次跑在 top 2-3 里换”赢家”。

5. 前轮隐性标准

长对话里前轮建了一个框架(“我们看重成本”)你忘了。模型还按它锚”最好”。

如何判断:同 prompt 在新对话里选不同。

动手前先确认

  • 写下你真正关心的维度。
  • 多维度的话排序 + 粗权重。
  • 想清楚要让模型忽略什么。
  • 决定 tie-breaker 规则。
  • 经常做的决策存成可复用 rubric。

需要收集的信息

  • 带”最好”的当前 prompt。
  • 3 次独立 run 的输出。
  • 你真实的项目上下文(负载、约束、团队)。
  • 你认为”对”的历史决策 + 理由。
  • 模型 + system prompt。

最短修复路径

Step 1:把”最好”换成”在[维度]上最好”

差:  "这个项目用什么数据库最好?"
好:  "处理 1 万写/分钟、p99 读延迟 <100ms 的最便宜数据库是哪个?
       负载:90% 读、10% 写,平均 3kb 行,共 100GB。"

维度(“最便宜”)+ 阈值(“1 万写/分钟”、“<100ms p99”)+ 负载规格消歧。

Step 2:用带权重的 rubric

多标准决策:

带权重的标准:
- 成本:40%(越低越好;上限 300 美元/月)
- p99 读延迟:30%(越低越好;最大 100ms)
- 团队熟悉度:20%(1=没用过,5=每天用)
- 维护负担:10%(1=托管,5=自托管)

对每个选项:
1. 每条 1-5 打分。
2. 乘权重。
3. 求和总分。
4. 选最高。
5. 展示打分表。

逼出显式推理,模型藏不住。

Step 3:声明要忽略

评估时忽略:
- 厂商品牌口碑。
- HN 评论里有没有提到。
- 训练数据时效偏好。
- 营销话术;只用文档化的限额和定价。

显式忽略防止它们作为隐性权重溜进来。

Step 4:声明 tie-breaker

Tie-breaker(top 2 分差 ≤ 0.3 时启用):
1. 优先团队里有更资深贡献者的那个。
2. 还平就优先 track record 更长的。
3. 还平就返回两个并标注。

Step 5:把 trade-off 当答案的一部分

对选出的选项列出:
- 2 件这个选择比 runner-up 更差的事
- 1 件以后被迫切换会失去的东西
- 1 个会改变答案的未知数

Trade-off 把”最好”和”在我们约束下最好”分开。

Step 6:建可复用 rubric 文件

经常做的决策(选厂商、选库、选架构)把 rubric 存文件。新决策用同 rubric + 新选项。

怎么确认已经修好

  • 同 prompt 跑 3 次选出同一”最好”。
  • 打分表可重现;手算能复现。
  • Trade-off 列表里是具体弱点不是 vibe。
  • 同事用同 rubric 得到同结论。
  • 决策可书面辩护。

如果还是没修好

  1. 标准可能还是虚——尽量量化。
  2. 加 1-2 个过往决策的工作示例做锚。
  3. 敏感上下文决策模型可能没数据——给它。
  4. 有些决策真的没”最好”——正确答案是”top 3 任选;trade-off 如下”。

预防建议

  • 默认:每个”最好” prompt 翻成带权重的 rubric。
  • 每类决策建 rubric 文件(厂商、架构、库、工具)。
  • 团队决策先商定 rubric 再 prompt。
  • 每月审”最好”决策——是否可复现?不能就说明 rubric 缺东西。
  • 写作反射:把”最好/最/top”全换成维度具体语言。
  • 不确定时让模型先提案 rubric;审过再问选择。

相关阅读

标签: #排查 #Prompt #Prompt 质量 #Prompt 工程