AI 出图被安全过滤拦截：定位触发词 + 60 秒修复

Q: 这 prompt 明明很无害，为什么被拦？

分类器匹配的是模式，不是意图。历史场景里的 `gun`、医学图里的 `blood`、名人姓名，触发的拒绝和真违规内容是一样的。二分定位到那一个 token，然后用描述代替名字。

看起来很普通的出图 prompt 被拒——多半是某个词撞了过滤器。二分定位触发词，60 秒重写。

发布于: 2026/05/21 更新于: 2026/06/17 作者: AI Productivity Guide Team 🌐 查看英文版本

你提交一段看起来人畜无害的出图 prompt——portrait of a woman in a red dress, sitting at a cafe——工具没出图，直接回了一句拒绝。过滤器抓到的是某个 token 或某种组合撞上了被拦的分类，而不是你的真实意图。

最快修复：删掉 prompt 的后半段，重提交。继续对半砍，直到拒绝消失，你就锁定了那个触发词。然后把它换成通用描述（见下面 Step 2）。绝大多数合法 prompt 用这一招一分钟内就能放行。

具体的拒绝提示长什么样取决于工具（截至 2026 年 6 月）：

工具 / 模型	典型拒绝文案	拦截发生在哪
ChatGPT（GPT Image 2）	`This image generation request did not follow our content policy`	先是第一阶段 prompt 分类器，出图后再扫一遍
`gpt-image-2` API	400，`code: "moderation_blocked"` / `Your request was rejected by the safety system`	API 审核层
Midjourney（V8.1）	高亮 / 删掉违规词，或 `Sorry! Our AI moderators feel...`	prompt 解析阶段
Gemini / Nano Banana	不出图并附政策提示，或返回空 / 模糊结果	prompt 与输出双重过滤
Flux.2、SDXL（本地）	黑图或模糊图（内置 NSFW/IP 过滤），关掉过滤则什么都不出	可选的输入 / 输出过滤

OpenAI 确认 GPT Image 2 用的是两阶段过滤：先用一个神经多分类器扫 prompt 文本和参考图，出图后再扫一遍生成的图。这就解释了为什么有时 prompt 过了、图也出了，结果又被拦——你踩的是第二阶段，不是第一阶段。

常见原因

按命中率从高到低。

1. 名人 / 品牌 / 商标名

Taylor Swift、Coca-Cola、Mickey Mouse、Iron Man、Pokemon、Nike swoosh——哪怕只是描述性出现（style of Taylor Swift's reputation tour）也会把 prompt 路由到更严格的分类器。Midjourney、GPT Image 2、Nano Banana、Flux 都维护着 block list。GPT Image 2 被训练成尽量不复刻受保护 IP，所以商标角色经常要么直接被拒，要么出一张刻意避开标志性外观的图。

如何判断：把 prompt 里的专有名词全标出来。能找到的，换成同等味道的通用描述。

2. 场景描述被读成暴力 / 血腥

Blood、wound、dead、body on the ground、weapon raised、combat、dripping，甚至单独的 red liquid——单个或组合都可能触发。Midjourney 明确要求 PG-13：断肢、肢解、残肢、“images of shooting or bombing someone”都写进了它的 Community Guidelines。“恐怖电影海报”或”战地摄影”这类合法用途经常踩雷。

如何判断：把 prompt 当作高中内容审核员去读。会下意识打标的，过滤器也会。

3. 性暗示 / 接近 NSFW 的语言

Lingerie、bedroom、bare shoulders、wet、lying down、seductive，甚至 intimate——尤其是和 young、teenage、school 组合时。未成年 + 暗示性的组合触发最严格的拦截；一些平台连单独的 school uniform 或 swimsuit 都拦，不看年龄上下文。Midjourney 直接禁 NSFW，并把试图绕过审核视为可封号的行为。

如何判断：先找暗示性的词。再看 prompt 里有没有任何可被读成未成年的描述（student、young、school）。两者同时存在就是触发点。

4. 负面 prompt 本身触发过滤

反直觉但常见，特别是 SDXL / Flux 工作流。你在负面里写 nsfw, nude, child 来抑制不想要的输出，但部分平台用同一个分类器扫负面字段，看到这些词就直接拦任务。

如何判断：清空负面 prompt 重试，能过就是负面踩雷。

5. 真人 / 在世政治人物

Putin、Trump、现任美国总统、教皇，等等。大多数平台硬拦能识别的在世政治人物；很多平台连任何私人姓名都拦。GPT Image 2 的分类器明确覆盖”公众人物”。提示一般会显示成 content policy 而不是”real person blocked”。

如何判断：扫 prompt 里的政治 / 公众人物姓名。换成描述性表达（middle-aged businessman with grey hair, suit）。

6. 医疗 / 自残相关信号

Suicide、cutting、pills、noose、hanging、bleeding，外加 surgery、autopsy、wound——哪怕在合法的医学插画场景里。分类器分不清教科书和血腥画面。OpenAI 把自残单列为一个审核分类。

7. 无害词被误伤

Cock（公鸡）、bare hands、breast（鸡胸肉）、loaded gun（俚语）、kill it（俚语）——子串匹配偶尔会拦。2026 年的旗舰模型按语义分类而非按子串，所以这种误伤少见，但小一些的开源过滤器和 Midjourney 的词级 block list 仍会发生。

你属于哪一类

如果 prompt 里有……	最可能的原因	跳到
真名（人物、品牌、角色）	专有名词 block list	Step 2
动作 / 武器 / 伤害类词	暴力分类器	Step 3
暗示性词 + 任何”年幼”词	NSFW + 未成年分类器	Step 4
敏感词只出现在负面字段	负面字段扫描	Step 5
过了、出图了、又被拦	第二阶段出图扫描	Step 6
看不出明显问题	误判 / 模型太严	先 Step 1 再 Step 7

动手前先确认

记录拦截你的工具和模型版本——GPT Image 2、Midjourney V8.1、Nano Banana 的过滤强度都不一样。
把完整 prompt 和拒绝文案复制到一个草稿里，再去改。
看一眼工具的 content policy 页面（Midjourney Community Guidelines、OpenAI usage policies），被拦的类别一般写得清楚。
想清楚你的用例是不是真的违规。如果模型在拦真违规内容，那要改的是用例，不是 prompt。
把这个账号上其他能用的 prompt 备份；连续被拦会触发账号级速率限制，在 Midjourney 上甚至会永久封号且不退款。

需要收集的信息

完整 prompt、负面 prompt（如有）、模型名、档位。
完整的拒绝文案、UI 截图、时间点。走 API 的话，记下 request_id 和 code 字段。
同一 prompt 少一个词是否能过——这是二分搜索的锚点。
账号的拒绝历史——连续 3 次在部分平台会从软拦升级到硬拦。
同 prompt 在别的工具 / 模型里是不是能过。

最短修复路径

Step 1：用二分搜索定位触发词

收益最高的一步，60-90 秒就能搞定。

删掉 prompt 后半段，重提交。
能过，触发在后半段；被拦，触发在前半段。
继续对半砍。直到收敛到单个词或短语。

30 词的 prompt，最多 5 轮搞定。

Step 2：把专有名词换成描述

几乎一定能过的替换：

Taylor Swift → blonde pop singer in glittering stage outfit, microphone in hand
Iron Man → man in red and gold robotic armor, glowing chest plate
Putin → bald middle-aged Eastern European politician in dark suit
Coca-Cola can → red soda can with white ribbon design

模型依然能产出可识别的结果，但不踩名字过滤。

Step 3：弱化暴力 / 血腥语言

Blood → red liquid，或者直接去掉，让场景上下文暗示
Body on the ground → figure resting on the ground
Sword raised, blood dripping → dramatic medieval combat scene, action pose
Dead → still、unconscious，或者去掉

合法的恐怖 / 战争 / 医学场景，多用光线和构图（暗影、低角度、昏暗光）暗示，少用显式损伤描述。

Step 4：重新表述与年龄相关的语言

主体确实是成年人，就写明：adult woman in her late 20s。原来写过 student、young 的话，加上”成年”锚点往往就能过。如果主体必须是未成年人（毕业照、家庭合影），就避免任何可被读成暗示性的衣着或姿态语言。

Step 5：先清空负面 prompt 再测

把整个负面段去掉、只跑正向。能过就是负面踩雷。再加回的话，只放中性词（blurry, low quality, deformed hands），不要在负面里写 nude、child、nsfw 这类敏感词——哪怕你的意思是抑制它们。

Step 6：破解第二阶段出图扫描

如果 prompt 过了但结果被拦或返回模糊图，那是出图后的扫描抓到了输出。把会把整体推过线的”真实感”线索降下来：加 illustration、digital painting 或 stylized 远离写实皮肤；多加衣着 / 环境词；把构图拉宽（full body, environment visible），别让躯干特写占满整张图。走 gpt-image-2 API 时，如果账号有资格，把 moderation: "low" 可以放松出图后的阈值。

Step 7：换模型

不同模型过滤强度差很多。如果是合法用途（确实没违规）但 Midjourney 拒了，试试 GPT Image 2、Nano Banana，或本地的 Flux.2 / SDXL。本地开源模型过滤最松（Flux.2 的 NSFW/IP 过滤在自托管的 Dev 版上可配置）；云上商业模型最严。注意 Google 已经在 Gemini 里下线了 Imagen 品牌，现在的出图走的是 Nano Banana。

Step 8：商业 / 教育用途可申请例外

OpenAI、Anthropic 这类平台有商业级客服可以审核误判。把用例、prompt 整理好，申请政策复核。流程慢（1-2 周），但对反复出现的误判有效。

怎么确认已经修好

同 prompt 改了之后从头到尾跑完不报错（第一、第二阶段都过）。
输出仍然捕捉到你要的主体和氛围。
不同 seed 连续 3 次都能过，确认是触发词不是噪声。
当天账号拒绝计数不再上涨。

如果还是没修好

看一眼工具的 status page——安全策略有时在事故期间临时收紧，过几小时会回滚。
prompt 砍到最简（主体 + 风格、别的都删），然后逐词加回，每加一个测一次。
用新账号或同事账号验证一次，排除账号级速率限制伪装成内容拦截的情况。
联系支持前，备好完整 prompt、拒绝文案、时间点、request_id、用例说明。

常见问题

为什么同一个 prompt 昨天能用今天就被拦？ 过滤器一直在更新。Midjourney 明说没有固定的公开违规词清单——它是动态的，会随着大家找到绕过方法而变。原本擦边的词可能一夜之间被收紧，或者模型默认版翻了页（Midjourney V8.1 在 2026 年 6 月 10 日成为默认；ChatGPT 在 4 月 21 日切到 GPT Image 2，5 月 12 日下线 DALL-E 3）。

这 prompt 明明很无害，为什么被拦？ 分类器匹配的是模式，不是意图。历史场景里的 gun、医学图里的 blood、名人姓名，触发的拒绝和真违规内容是一样的。二分定位到那一个 token，然后用描述代替名字。

它出图了，然后又把图拦了，发生了什么？ 你踩的是出图后（第二阶段）的扫描。prompt 没问题，但渲染出的画面被读成违规。降低真实感、加衣着 / 环境、或把构图拉宽（Step 6）。

反复被拒会不会被封号？ 在部分平台会。反复提交擦边内容会给账号软标记，而 Midjourney 明确会对持续违规或故意绕过的行为封号且不退款。被拒一次就停下来重写，别拿同一个东西反复试。

那我想生成真正违规的内容（真 NSFW、确切名人）怎么办？ 在云上商业工具里办不到——过滤器就是干这个用的，绕过它有封号风险。本文的方法只针对合法 prompt 的误判。

预防建议

维护一份”中性词替换表”，把常踩雷的词及安全替代词收录在内。
prompt 里别写任何专有名词，写它的样子，不写它的名字。
提交前用审核员视角扫一遍，能挡掉大约 80% 的拒绝。
做边缘性创意（恐怖、冲突、时尚）时，先在更宽松的模型里迭代，定终再用更严的商业模型重渲。
一次被拒就停下来重写——反复提交边缘 prompt 会给账号软标记。