Deep Research 是 ChatGPT 的”后台研究 agent”:你给一个 prompt,它在 5–30 分钟内自己 browse 几十个网页 / PDF,生成一份带引用的报告。它的失败模式和普通对话不一样——很多时候没报错,只是给了一份”看似完整但全是泛泛而谈”的报告,或者跑到一半静默放弃。
排查时按”先看配额,再看 prompt,再看目标站点”的顺序,因为这三个原因的命中率差距很大。
常见原因
按命中率从高到低:
1. 月配额已用完,被静默降级到普通 GPT-5.5
Deep Research 每月有按账号档位的次数:免费档每月几次、Plus / Team 每月约 10 次、Pro / Enterprise 上限更高。用完之后,UI 上”Deep Research”按钮还在,但点了之后只会跑普通模型,返回一份没有真实 browse 痕迹的回答。
如何判断:看返回里有没有”Sources / 引用源”这一栏——Deep Research 必带、普通 GPT-5.5 没有。或者点头像 → Settings → Subscription 看 Deep Research 余量。
2. Prompt 太宽泛,agent 中途放弃
Deep Research 内部会先做一次”任务分解”:把你的 prompt 拆成 5–10 个子 query。如果原始 prompt 没有可分解的维度(比如”帮我研究一下 AI”),分解器会输出大量重叠子任务,agent 跑几轮就判定”信息冗余、收益不够”自行停下。
如何判断:在最终报告底部,看 “Sources” 数量。少于 8 条、且大量来自同一域名(如全是 Wikipedia / Medium),就是 agent 早停。
3. 要查的站点 robots.txt / Cloudflare 反爬阻拦
OpenAI 的 OAI-SearchBot / ChatGPT-User UA 在某些站点(Twitter/X、LinkedIn、Quora、Substack 付费墙、企业内网、部分新闻站)会被 robots.txt 或 Cloudflare 防火墙拒绝。Deep Research 抓不到这些页面时不会停,但报告里这些来源会缺失,导致结论偏向能抓到的少数源。
如何判断:报告 Sources 列表里如果某个你明显该出现的站点(比如行业头部博客)一次都没出现,多半是被它的服务器拒了。
4. 输出语言和 prompt 语言错位
如果 prompt 是中文但你需要英文报告(或反过来),中间分解出的英文子 query 会拉回中文源,导致引用质量下降。Deep Research 对”跨语言研究”的容错比较弱。
如何判断:报告里中英源比例和你期望的不一致,就是这个问题。
5. 单次任务文件 / URL 输入超限
prompt 里贴了 10+ 个 URL 或 3+ 个 PDF 时,agent 可能不会逐一处理,而是抽样几个就开始写。
如何判断:报告引用没有覆盖你贴的所有 URL,就是被抽样了。
最短修复路径
按”省时间”排序——先 30 秒能验证的步骤。
Step 1:确认这次确实在跑 Deep Research
点头像 → Settings → Account → 看 Deep Research 本月余量。如果是 0,今天起的所有 “Deep Research” 按钮都是降级跑的,要么等下月,要么升级档位。
也可以直接看返回特征:
| 特征 | 真 Deep Research | 降级到 GPT-5.5 |
|---|---|---|
| 顶部进度条(“Thinking…Browsing…”) | 有,分 3–5 阶段 | 没有 |
| 总耗时 | 5–30 分钟 | < 1 分钟 |
| 底部 Sources 块 | 必有,通常 10–40 条 | 没有 |
| 报告长度 | 通常 1500–4000 字 | 通常 < 800 字 |
Step 2:把 prompt 改成”可分解、有边界”的形式
差 prompt → 好 prompt 的改造模板:
差:「帮我研究一下 AI 视频生成工具」
好:「对比 Sora、Veo 3、Kling 在以下 4 个维度的差异:
1) 单镜头最长时长
2) 角色一致性(同一角色跨镜头)
3) 商用授权条款
4) 公开定价
输出表格 + 每行注明信息来源 URL 和发布日期。」
关键三要素:
- 指名实体——具体产品 / 公司 / 论文 / 时间窗,不要”AI 行业”这种抽象词
- 指明维度——你想横向对比什么列,列清楚
- 指明输出格式——表格 / 带 H2 的报告 / Markdown 列表
Step 3:把”让它搜”改成”让它读你提供的源”
如果你已知最权威的几个源(官方文档、白皮书、特定博客),直接把 URL 贴进 prompt:
请基于以下 5 个 URL 撰写对比报告:
- https://...
- https://...
(最多 5 个,多了它会抽样)
之外允许补充至多 5 条外部源,但不要替代上述。
这样可以绕开”抓不到 X 站”的问题。
Step 4:拆任务分多次跑
如果一次 prompt 涉及 3 个完全不同的子题(比如同时要”市场规模” + “技术原理” + “商业模式”),不如分 3 次跑,每次只问一个子题,最后人工合并。Deep Research 单任务做得越深越好,做得越宽越浅。
Step 5:换语言再试
如果中文跑出来的报告引用全是低质中文源,把同一个 prompt 翻成英文跑一次。英文源池子大得多,质量通常更高。完成后让 GPT-5.5 把英文报告翻成中文。
Step 6:导出 + 二次校对
Deep Research 报告偶尔会”捏造引用”——URL 真实但里面没说报告里写的那句话。重要场景下,按报告 Sources 列表手动抽 3 条点开核对再发出去。
预防建议
- Deep Research 用于”已经知道方向,要深挖证据”的场景,不是”我也不知道我要什么”——后者先用普通对话先聊清楚边界。
- 月初做一次配额规划:把当月真正需要 Deep Research 的 5–10 个题目列出来,按重要性排队,不要在 trivia 上消耗次数。
- 凡是产出要对外发布的报告,引用都手工抽查至少 3 条——这是模型层面无法保证的。
- 学会”prompt 模板化”:维护 3–5 个验证过好用的模板(市场对比、技术尽调、竞品研究),新题套模板比从头写靠谱。