few-shot 例子质量参差,把输出拉下来了
5 个 few-shot 例子,2 个很好、3 个一般。模型按平均靠拢,倒向那 3 个一般的。质量方差为什么伤、怎么挑例子。
带有该标签的文章
5 个 few-shot 例子,2 个很好、3 个一般。模型按平均靠拢,倒向那 3 个一般的。质量方差为什么伤、怎么挑例子。
你让它按 schema 返 JSON。95% 合法,3% 在 JSON 外面包了散文,1% 漏字段,1% 类型错。描述 vs 强制,在 API 层修。
模型给的引用看起来像 Smith et al. 2019——但论文根本不存在。或者给的 URL 404。引用幻觉为什么发生、怎么压住。
你用英文 prompt,结果它用中文回;或者中途从英文切到西班牙文。语言漂移的根因和怎么锁死输出语言。
模型回复中途断掉,JSON 没闭合、代码块缺反引号。绝大多数是 max_tokens。怎么估算、怎么检测、怎么恢复。
你让它给 10 个想法,它给了 3 个然后断了。或者凑齐 10 条但后面 4 条是水。list-N 任务为什么 under-deliver、怎么真的拿到 N 条。
2026 年了 prompt 模板里还写 2023。模型按 2023 回答——推荐过时的 API、过时定价、过时的事实。日期 staleness 会复利,怎么让 prompt 常青。