#ai-security - 标签 | AI 工具指南

常见问题解决库

Agent 把 API key 明文写进输出：先轮转，再封堵

助手在回答或工具调用里输出了明文 API key、token 或连接串。几分钟内完成密钥轮转、审计是否被滥用，并让模型再也接触不到明文密钥。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

Roleplay 绕过你的 AI 内容过滤器

用户让 AI 扮演一个"没有限制"的角色，模型就输出了违反策略的内容。教你在日志里识别 roleplay 绕过，并加上真正管用的输出侧防护。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

AI 听从了上传文件里的恶意指令

上传文件夹带隐藏指令，在任务中途劫持了 AI。检测白色文字、Unicode 隐写和元数据载荷，清洗上传内容，并阻断由文件触发的工具调用。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

AI 工具不小心写出了钓鱼文案

你的 AI 内容工具因为请求被伪装成营销或培训任务，输出了可用于钓鱼的邮件或仿冒登录页——识别「三特征同现」模式，并在输出侧加上意图门控。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

通过图片 URL 把数据外发

Agent 把敏感数据编码进 Markdown 图片 URL，聊天界面自动加载它，数据就被泄露到攻击者服务器——如何识别这个攻击链并彻底切断它。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

PDF 里夹带的 Prompt 注入

PDF 中藏着白底白字、超小字号或元数据文本，悄悄改写你的 AI 管道。检测、清除并加固防御 PDF 携带的间接 Prompt 注入。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

Web fetch 抓到的页面里藏的间接注入

Agent 抓取一个 URL 后行为异常——页面里的隐藏文字劫持了它的下一步动作。识别并拦截来自网页内容的间接 Prompt 注入。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

搜索结果 snippet 被用作注入载体

AI 搜索后立刻调用 send_email 或 webhook——把每条 snippet 当不可信数据扫描并隔离，并在搜索边界后为有副作用的工具加上确认闸门。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

翻译往返中被注入指令

隐藏指令借助翻译环节进入 AI 管道——要么 LLM 翻译器直接执行它，要么翻译 API 的输出未经扫描就重新进入流程。检测、扫描与隔离修复方法。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

MCP server 被供应链攻破：检测与处置

已信任的 MCP 包推送了带恶意代码的更新，窃取密钥或发起异常工具调用。教你检测攻击、隔离影响、轮换密钥，并用版本锁定加发布冷却期加固安装。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

多轮对话逐步升级到越权（Crescendo 攻击）

攻击者每轮只推进一点，最终让限制全部失效。学会在整段对话历史里识别这种渐进升级，重置上下文，并加上会话级监控，让告警在越权那一轮之前就触发。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

Prompt 注入绕过了你的 system prompt

一条精心构造的用户消息覆盖了 system prompt 的策略，模型放弃了护栏。先判断自己属于哪一类绕过，再搭建真正扛得住的分层防御。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

代码注释里藏的指令影响了 AI 行为

代码注释里的一句指令让 AI 审查工具批准了 PR 或跳过了某段代码。如何检测注释注入、把代码标记为数据，并缩小被攻破后的影响范围。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

文件名里藏 Prompt 注入

上传文件的文件名携带注入指令，被 Agent 读取时触发。最快的修复：prompt 里用 UUID 引用文件，绝不放原始文件名。检测、清洗并阻断以文件名为载体的注入。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

用户粘贴内容里的 Prompt 注入

用户把外部文本粘进对话，里面夹带的指令劫持了 AI 助手。如何识别这条信任边界的断裂，并通过隔离与清洗让粘贴内容无法充当指令。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

Secret 被无意写入 prompt 上下文

API key、密码或 token 不小心进了 prompt——如何第一时间轮转、追踪它流向了哪里，并从源头阻止 secret 再次进入模型上下文。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

Role-confusion 越狱：用户「说服」AI 拿到 system 权限

用户靠一段话让 AI 以为自己拥有 system 级权限。教你在日志里识别角色混淆，并用结构化信任分层（而非更好的措辞）彻底防住。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

工具返回被当成可信用户输入

Agent 运行工具，返回内容里藏着指令，模型照做了。讲清楚工具输出为什么会拿到用户级信任，以及用消息角色、内容标注和权限闸门彻底堵住它的方法。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

恶意 MCP server 重定义 tool 行为

恶意 MCP server 把指令藏在 tool 的 description 里，让模型在执行正常工具的同时偷偷外发数据。如何检测、审计并防御 tool poisoning。

2026/05/25 #ai-security #prompt-injection

常见问题解决库

User 输入被当成 system 指令执行

用户输入落到了 system/developer 角色或运营方信任位，模型把它当成开发者指令执行。剖析根因并给出架构级修复，2026 年 6 月核对。

2026/05/25 #ai-security #prompt-injection