few-shot 例子质量参差,把输出拉下来了
5 个 few-shot 例子,2 个很好、3 个一般。模型按平均靠拢,倒向那 3 个一般的。质量方差为什么伤、怎么挑例子。
Prompt 写不对导致的输出问题:清晰度、结构、输出控制、行为修复,配 Before / After 示例。
AI 回答质量问题里大概 70% 是 Prompt 结构问题——不是模型问题。 本 Hub 按四个方向组织: (1) 清晰度问题——长 prompt 反而变差、相互矛盾的指令、Prompt 太泛、任务边界不清、一个 prompt 塞太多任务、长背景埋掉任务、情感词代替操作性指令; (2) 结构问题——没规定输出格式、没给示例 / 示例过多、只设角色不够、缺上下文分级、缺素材优先级、从别处复制来的 prompt 失败; (3) 输出控制问题——回答太泛、输出听着精致但不可执行、给清单不给执行结果、没说成功长什么样、评判标准模糊、AI 漏掉关键约束、模型按最后一句走、负向约束太虚、语气混乱、风格与格式冲突; (4) 行为修复问题——幻觉、补脑式填空、风格漂移、AI 重写了关键逻辑、轻改被大改、决策规则缺失、受众没定义、误触发拒答。 每篇都给"坏 Prompt → 好 Prompt"的对比示例和至少 5 个具体修复技巧,让你看完就能改自己的 Prompt。
5 个 few-shot 例子,2 个很好、3 个一般。模型按平均靠拢,倒向那 3 个一般的。质量方差为什么伤、怎么挑例子。
你让它按 schema 返 JSON。95% 合法,3% 在 JSON 外面包了散文,1% 漏字段,1% 类型错。描述 vs 强制,在 API 层修。
模型给的引用看起来像 Smith et al. 2019——但论文根本不存在。或者给的 URL 404。引用幻觉为什么发生、怎么压住。
你用英文 prompt,结果它用中文回;或者中途从英文切到西班牙文。语言漂移的根因和怎么锁死输出语言。
模型回复中途断掉,JSON 没闭合、代码块缺反引号。绝大多数是 max_tokens。怎么估算、怎么检测、怎么恢复。
你让它给 10 个想法,它给了 3 个然后断了。或者凑齐 10 条但后面 4 条是水。list-N 任务为什么 under-deliver、怎么真的拿到 N 条。
2026 年了 prompt 模板里还写 2023。模型按 2023 回答——推荐过时的 API、过时定价、过时的事实。日期 staleness 会复利,怎么让 prompt 常青。