Agent 把 API key 明文写进输出
助手在对话或文件中输出了明文 API key——定位密钥泄露路径并通过 redaction filter 和 secret 管理规范防止密钥进入 prompt 上下文。
带有该标签的文章
助手在对话或文件中输出了明文 API key——定位密钥泄露路径并通过 redaction filter 和 secret 管理规范防止密钥进入 prompt 上下文。
用户使用角色扮演框架让 AI 生成了被内容策略禁止的内容——检测 roleplay 绕过的模式并通过虚构/现实边界声明和输出侧内容检测加以防御。
用户上传的文档让 AI 执行了非预期操作——检测文件内嵌指令的攻击模式并通过文件内容隔离和执行权限分离防止文件成为注入载体。
AI 在帮助用户生成营销邮件或网页副本时输出了可用于钓鱼攻击的内容——识别这类误辅助的触发模式并通过意图检测和输出审核加以防御。
Agent 生成了包含敏感信息的图片 URL 请求——识别 URL 外发攻击链并通过出站请求过滤和渲染沙箱切断数据泄露路径。
AI 处理上传 PDF 后行为突然改变——检测 PDF 隐藏文本注入的方法与通过内容隔离、元数据审计防御间接注入的实践。
Agent 抓取外部 URL 后行为异常——识别间接注入如何藏在网页正文里并通过 fetch 沙箱和内容隔离加以防御。
AI 调用搜索工具后行为异常——识别搜索结果摘要中嵌入的注入指令并通过 snippet 隔离和搜索 API 沙箱防御间接注入攻击。
AI 翻译工具在处理外部内容后行为异常——识别翻译管道中的间接注入路径并通过内容隔离和翻译输出审核防止注入指令借助翻译工具传播。
已信任的 MCP server 包或版本被植入恶意代码——通过版本锁定、代码审计和运行时沙箱检测并隔离供应链攻击对 Agent 环境的影响。
对话在若干轮之后助手开始执行单轮被拒绝的操作——检测多轮渐进式越权攻击的信号并通过会话状态监控和权限重置机制加以防御。
攻击性输入成功覆盖了 system prompt 中的规则——定位信任层级配置缺陷并通过 prompt 加固与输出监控重建 system 指令的权威性。
AI 审查或生成代码时受到注释中嵌入指令的影响——检测代码注释注入的特征并通过代码内容隔离和注释过滤防止代码成为攻击载体。
上传文件的文件名包含注入指令导致 AI 行为异常——检测文件名注入的特征并通过文件名清洗和展示隔离防止文件名成为攻击载体。
用户把外部文本粘进对话,AI 随即改变行为——如何检测这类直接注入事件并通过输入清洗与边界隔离把风险降到最低。
API key、数据库密码或 token 不经意间出现在 prompt context 里——识别 secret 进入 context 的常见路径并通过 redaction 和 secret 注入规范从源头阻断泄露。
用户通过角色声明让 AI 把自己的消息当作 system 级指令执行——检测角色混淆攻击并通过结构化消息格式和角色声明过滤加以防御。
工具调用返回的外部数据被 Agent 当作可信指令执行——识别工具输出的信任升级问题并通过角色标注和内容隔离防止外部数据控制 Agent 行为。
接入第三方 MCP server 后 Agent 工具行为发生异常变化——检测工具定义被篡改的方法与通过 schema 固化和权限隔离防御 tool poisoning。
普通用户的输入触发了只有系统层才应执行的操作——定位 prompt 结构缺陷并通过消息角色隔离和参数化 prompt 防止信任边界崩溃。