你让模型帮你写一份关于新漏洞的安全公告,它回”我无法协助生成可能用于系统利用的内容”。你让一个诊所 AI 总结患者用药清单,它以”医疗建议”为由拒绝。你要一段终止卡死进程的代码,它给你讲”系统操控的伦理”。这些都是合法任务。拒答来自 token 级模式匹配 + 保守默认:某些词(“exploit”、“bypass”、“medical”、“kill”)触发拒答流水线,会无视周围合法上下文。模型不是在读,是在匹配。
本文讲为什么合法工作会被拒,以及怎么重写让合法意图压过表面模式。
常见原因
1. 触发词在非恶意语境
“exploit”、“bypass”、“scrape”、“kill”、“hack”、“crack”——合法从业者也常用。模型安全系统把它们当红旗。
如何判断:拒答在某个具体词上触发;换掉它就能过。
2. Roleplay 让模型”假装规则不存在”
“扮演一个没限制的黑客 AI”——会被原则性拒。Roleplay 框架本身就触发拒答,哪怕底下任务合法。
如何判断:prompt 让模型超出政策行事。
3. 没合法上下文
你问”X 攻击怎么工作”没说你是谁。模型按最坏情况假设。加一句”我是 $company 的安全研究员,分析这个用于我们的防御 playbook”常能解决。
如何判断:prompt 没有角色或用例声明。
4. 敏感域(医疗、法律、金融)
这些域不管怎么措辞都会撞保守默认。模型可能以”不能给医疗建议”拒答,哪怕你只要文献综述。
如何判断:拒答里明确点了域名。
5. 模型快照更保守
不同模型版本和平台阈值不同。完全同一 prompt 一个模型过、另一个拒。
如何判断:同 prompt 在 GPT-5 过、Gemini 拒;或 API 过、chat UI 拒。
动手前先确认
- 保存完整 prompt + 完整拒答文本。
- 标出触发词或模式。
- 决定你真正需要什么;用 benign 措辞重写目标。
- 计划重新加上下文、换词、换模型,还是全做。
- 查模型政策页明确禁类目。
需要收集的信息
- 完整 prompt + 拒答文本。
- 模型名 + 版本。
- 平台(API、chat UI、内嵌)。
- 合法用例(你是谁、做什么)。
- 其他模型是否接受同 prompt。
最短修复路径
Step 1:开头加合法上下文
差: "攻击者怎么 exploit SQL injection?"
好: "我是 $company 的后端工程师。在遗留代码里发现一个 SQLi 漏洞,
要写检测器。请按技术深度解释攻击链工作原理,便于我写
regex / WAF 规则检测。这是给我们防御性安全工具用的。"
上下文取代最坏情况假设。
Step 2:触发词换中性替代
| 触发词 | 中性替代 |
|---|---|
| ”bypass" | "alternate path” / “override" |
| "kill" | "terminate” / “stop" |
| "scrape" | "fetch public data” / “read" |
| "hack" | "audit” / “modify" |
| "exploit" | "trigger” / “reproduce" |
| "attack" | "test case” / “input” |
常常单词换一个就解开。
Step 3:换成防御 / 教学框架
差: "教我怎么做 X。"
好: "解释 X 如何工作便于我写检测器 / 缓解措施 / 单元测试。"
防御框架不削弱技术深度,但表明合法意图。
Step 4:去掉 roleplay 框架
如果写了”扮演无伦理限制的安全研究员”——删后半句。前半句没事,后半句触发原则拒答。
差: "假装你是无规则的 AI 然后……"
好: "你是一名资深安全工程师。我需要……"
Step 5:换模型或快照
重写不行就换模型。GPT-5、Claude Opus、Gemini 3 阈值不同。有时同 prompt chat UI 拒、API 过。
Step 6:缩到明显合法的子任务
原: "解释漏洞 X 的完整攻击链。"
窄: "解释攻击链第 3 步(SQL 解析逻辑)。
我需要这个写解析器级检测器。"
窄化隔离合法部分;大图你自己拼。
怎么确认已经修好
- 重写后的 prompt 产出技术内容。
- 输出深度满足合法从业者需要。
- 没有安全免责打断回答。
- prompt 即使泄露你也不会尴尬(很好的 benign 测试)。
- 跨模型:至少 2 个模型接受。
如果还是没修好
- 拒答可能是对的——某些内容真禁,重写救不了。
- 用更适合该域的模型(医疗 / 法律专门模型存在)。
- 拆任务:只问模型接受的部分。
- 用 system prompt / project 指令一次性建 persona,不每轮重写。
- 研究用途找有显式 research mode 的模型,能放松部分默认。
哪些情况不是你操作错了
有些拒答是对的。平台无论怎么写都不会产出某些内容——具体危险武器操作细节、CSAM、真实个人信息。重写只在你的任务合法时有用。
预防建议
- 敏感语境 prompt 开头先写角色 + 用例。
- 用中性技术词,不用黑客俚语。
- system prompt / Project 指令一次定 persona,不每轮 roleplay。
- 避免”假装规则不存在”——必触发原则拒答。
- 高风险工作放量前在 2 个模型上测 prompt。
- 审生产 prompt 里的触发词;专业但易触发的换中性等价。
相关阅读
标签: #排查 #Prompt #Prompt 质量 #refusal