Prompt 用情感词而非操作性指令

"求你写得超棒！"听着真诚，但模型不知道要做什么。把形容词换成可检查的规则。

发布于: 2026/05/20 更新于: 2026/06/21 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话先说结论： 你的 prompt 结尾是”求你写得超棒！这事超重要、我真的需要它完美！“，结果输出全是装饰——形容词、感叹号、“我充满激情地为你交付价值”。最快的修法：删掉每个情感形容词，换成模型能机械检查的规则（“超棒” → “包含 3 个具体示例 + 1 个下一步”）。情感告诉了模型该怎么”感受”，却从没告诉它要”产出”什么。

这是情绪匹配，不是任务执行。输出语域会回声 prompt 语域：你用感叹号，它就回感叹号。下面先讲研究到底怎么说，再带你把求情换成操作性指令。

研究到底怎么说（免得你矫枉过正）

你可能读到过”情感措辞能提升模型表现”。这来自一篇被广泛引用的真论文：“Large Language Models Understand and Can Be Enhanced by Emotional Stimuli”（Li 等，2023，arXiv:2307.11760）。在任务 prompt 后面追加 “This is very important to my career” 这类句子，在 Instruction Induction 上拿到 8% 的相对提升，在某个 BIG-Bench 切分上拿到 115% 的相对提升，测的是 2023 年的 GPT-4、Llama 2、ChatGPT 等。

截至 2026 年 6 月，有三条 caveat 很关键，也正是本文仍然让你删情感的原因：

效果小、噪声大、看任务。 那个 115% 是单个切分；多数提升是个位数，还有些任务毫无变化。
在前沿模型上变弱。 礼貌 / 语气类研究（arXiv:2402.14531、arXiv:2510.04950）发现：模型越大、指令微调越充分，语气效果越弱。在 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 上，一句情感话基本被 RLHF 抹平。
它从来不是”指定输出”的替代品。 即便在原论文里，那句情感话也是追加在一个完整任务 prompt 后面的。它没替代操作性指令，也替代不了。

所以结论不是”情感被禁了”。而是：情感在老模型上顶多给你一个小而不稳的提升，在”从没说清什么叫好”的模糊 prompt 上则是零。把 token 花在规则上。

常见原因

1. 形容词没可测规则

“超棒”、“杀手级”、“完美”、“惊艳”、“世界级”——没一个对应可检查的输出特征。模型把它们解析成训练分布里带这些标签的文本平均态，那就是企业营销腔。

如何判断：你的 prompt 有情感形容词但没可测成功规则。

2. 赌注 / 紧迫感措辞

“事关饭碗”、“非常关键”、“生死攸关”。研究表明这在老模型上能给个小而不稳的轻推，但它没告诉模型要改什么，而且戏剧化框架可能把输出推向过度谨慎、含糊其辞。

如何判断：你的 prompt 有戏剧化框架但没操作内容。

3. 吹捧 / 夸奖

“你是世界最强 AI，请用尽全部智能”。语气效果在现代模型上真实但极小且不稳定，绝不是规格的替代品。夸奖费 token，又不增加任何可检查的东西。

如何判断：你的 prompt 开头夸模型。

4. 默认共享美学

“做得漂亮点”没定义漂亮。“做得优雅”没展示优雅。模型从训练里挑默认美学，而默认很少和你脑子里那个一致。

如何判断：美学词没锚也没示例。

5. 输出语域镜像 prompt 语域

你用感叹号，模型用感叹号。你用 emoji，模型回 emoji。输出语域回声 prompt 语域。

如何判断：输出的情感语域和 prompt 的一致。

你属于哪一类

输出里的症状	大概率原因	跳到
一堆形容词、没实质	形容词没规则	Step 1-2
含糊、过度谨慎、或拒答	赌注 / 紧迫措辞	Step 3
通用营销腔	夸奖 + 美学没定义	Step 3、5
语气和你想要的不符	语域镜像	Step 4
每次 run 输出差异很大	情感 + 高 temperature	”如果还是没修好”

动手前先确认

标出 prompt 里每个情感词或形容词。
每个都问：“我会怎么检查输出是 X？”
写下检查项。
看看情感泡沫之下是否有任何操作性指令。
起草替换表：每个形容词 → 它的规则版本。

最短修复路径

Step 1：删每个情感形容词

机械扫一遍：删”超棒”、“杀手级”、“完美”、“惊艳”、“绝佳”、“棒极了”、“喜欢”、“充满激情”。

Step 2：每个换成规则

形容词	规则
”超棒”	具体化：“必须包含 3 个具体示例 + 1 个可执行下一步。"
"完美”	定义完美：“无语法错、≤200 字、过品牌语气 checklist。"
"吸引"	"开头是问句、统计或具体场景。不能是’在当今……’。"
"专业"	"无感叹号。无第一人称复数。无口语缩略。"
"漂亮"	"Hero 图、双列、标题 24px。（或贴视觉参考。）“

Step 3：删赌注 / 紧迫 / 吹捧

差：  "求求你这事超重要，整个团队都指着这个，
       你是最聪明的 AI，全力发挥！"
好：  "输出必须满足：<3 条可测规则>。结束前自检。"

“好”版本零情感内容，结果也更稳——因为每一句都是模型能拿输出去核对的东西，而不是一种它得去揣摩的情绪。

Step 4：输出语域匹配目标

要冷静专业的输出，就写冷静专业的 prompt。要 punchy 的输出，写 punchy 的 prompt——但 punchy 不等于激情。punchy = 短句、强动词，不是感叹号。

Step 5：给示例，不给 vibe

像这样（目标语气）：
"部署失败。Stripe webhook secret 周五 14:02 UTC 过期。
在 dashboard 轮换，粘到 Vercel env，重新部署。
用测试 webhook 验证。"

不要这样（当前差输出）：
"这是个超棒的问题！让我们充满激情地深入这个部署问题，
找出一个惊艳的解决方案！"

一个具体的目标语气样例，胜过一整段描述它的形容词。

Step 6：让模型扫情感漂

写完自检：
- 用过这些禁词吗：超棒、惊艳、绝佳、充满激情、
  超、绝对、喜欢？
- 用过就把那句重写。

哪怕 prompt 干净也能挡住漂移。它管用是因为这个检查是机械的——一张词表，不是 vibe。

怎么确认已经修好

新 prompt 含 0 个情感形容词。
新输出含 0 个情感形容词。
输出满足你定义的每条操作规则（逐条核对）。
同事读你的 prompt 看不出你”真的很需要”——只看到规格。
跨 run 输出方差降低：同一个 prompt 跑 3 次，结构应该几乎一样。

如果还是没修好

替换规则可能太少——加 2-3 条操作约束。
给一个”我们不想要的装饰性输出”反例。
降 temperature；高 temperature 下情感 prompt 噪声叠加。API 上结构化任务可试 temperature: 0.3。
创意任务用具体语气样例做锚，不要用形容词描述。

常见问题

跟模型说”这事关我的前途”不是能让它更努力吗？ 2023 年的 EmotionPrompt 论文确实测到这类话有提升，但小而不稳，主要在老模型上。在 2026 年 6 月的前沿模型（GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro）上，RLHF 基本把这效果抹平了，而且它从没替代过”告诉模型你要什么输出”。把这句话用来写规则。

那对模型粗鲁、简短是不是比礼貌更好？ 2025 年有些语气研究报告两边都能差几个百分点，但效果小、看模型和语言、不可靠，极端粗鲁还可能伤质量。实用答案：语气几乎不影响质量，真正拉动质量的是规格。喜欢就留一句中性礼貌话，到此为止。

那”请”和”谢谢”要全删吗？ 不用。一句礼貌话无害，几乎不费 token。问题是整段的求情和吹捧把真正的指令挤掉了。控制在一句以内，然后进入操作。

多少情感词算太多？ 用 3 当重构阈值。生产 prompt 里情感或美学词超过 3 个、又没有对应规则，就重写——每个形容词配一个检查，否则删掉。

删了情感之后输出还是很通用，怎么办？ 删情感会暴露出这个 prompt 本来就没规格。把 Step 2 的规则补上：数量、长度、必含章节、禁用措辞，外加一个具体的目标语气样例（Step 5）。输出通用几乎总是因为缺约束，不是缺热情。

预防建议

默认：形容词不能是唯一约束。每个形容词配规则，否则删。
维护个人”形容词 → 规则”替换表。
审生产 prompt 里情感词数量。超过 3 就重构。
创意工作用语气样例做锚，不靠热情。
“求你”、“谢谢”控制在一句礼貌话——情感占空间不占功能。
对比测”裸 prompt”（只指令、无情感）vs “加料 prompt”（指令 + 情感）。现代模型上，多数团队发现裸的至少一样好，而且更稳。