ChatGPT Deep Research 任务失败:3 个原因 + 修复路径

点了 Deep Research 但 10 分钟后没结果——配额、prompt 模糊、外部站抓不到。

Deep Research 是 ChatGPT 的”后台研究 agent”:你给一个 prompt,它在 5–30 分钟内自己 browse 几十个网页 / PDF,生成一份带引用的报告。它的失败模式和普通对话不一样——很多时候没报错,只是给了一份”看似完整但全是泛泛而谈”的报告,或者跑到一半静默放弃。

排查时按”先看配额,再看 prompt,再看目标站点”的顺序,因为这三个原因的命中率差距很大。

常见原因

按命中率从高到低:

1. 月配额已用完,被静默降级到普通 GPT-5.5

Deep Research 每月有按账号档位的次数:免费档每月几次、Plus / Team 每月约 10 次、Pro / Enterprise 上限更高。用完之后,UI 上”Deep Research”按钮还在,但点了之后只会跑普通模型,返回一份没有真实 browse 痕迹的回答。

如何判断:看返回里有没有”Sources / 引用源”这一栏——Deep Research 必带、普通 GPT-5.5 没有。或者点头像 → Settings → Subscription 看 Deep Research 余量。

2. Prompt 太宽泛,agent 中途放弃

Deep Research 内部会先做一次”任务分解”:把你的 prompt 拆成 5–10 个子 query。如果原始 prompt 没有可分解的维度(比如”帮我研究一下 AI”),分解器会输出大量重叠子任务,agent 跑几轮就判定”信息冗余、收益不够”自行停下。

如何判断:在最终报告底部,看 “Sources” 数量。少于 8 条、且大量来自同一域名(如全是 Wikipedia / Medium),就是 agent 早停。

3. 要查的站点 robots.txt / Cloudflare 反爬阻拦

OpenAI 的 OAI-SearchBot / ChatGPT-User UA 在某些站点(Twitter/X、LinkedIn、Quora、Substack 付费墙、企业内网、部分新闻站)会被 robots.txt 或 Cloudflare 防火墙拒绝。Deep Research 抓不到这些页面时不会停,但报告里这些来源会缺失,导致结论偏向能抓到的少数源。

如何判断:报告 Sources 列表里如果某个你明显该出现的站点(比如行业头部博客)一次都没出现,多半是被它的服务器拒了。

4. 输出语言和 prompt 语言错位

如果 prompt 是中文但你需要英文报告(或反过来),中间分解出的英文子 query 会拉回中文源,导致引用质量下降。Deep Research 对”跨语言研究”的容错比较弱。

如何判断:报告里中英源比例和你期望的不一致,就是这个问题。

5. 单次任务文件 / URL 输入超限

prompt 里贴了 10+ 个 URL 或 3+ 个 PDF 时,agent 可能不会逐一处理,而是抽样几个就开始写。

如何判断:报告引用没有覆盖你贴的所有 URL,就是被抽样了。

最短修复路径

按”省时间”排序——先 30 秒能验证的步骤。

Step 1:确认这次确实在跑 Deep Research

点头像 → Settings → Account → 看 Deep Research 本月余量。如果是 0,今天起的所有 “Deep Research” 按钮都是降级跑的,要么等下月,要么升级档位。

也可以直接看返回特征:

特征真 Deep Research降级到 GPT-5.5
顶部进度条(“Thinking…Browsing…”)有,分 3–5 阶段没有
总耗时5–30 分钟< 1 分钟
底部 Sources 块必有,通常 10–40 条没有
报告长度通常 1500–4000 字通常 < 800 字

Step 2:把 prompt 改成”可分解、有边界”的形式

差 prompt → 好 prompt 的改造模板:

差:「帮我研究一下 AI 视频生成工具」
好:「对比 Sora、Veo 3、Kling 在以下 4 个维度的差异:
     1) 单镜头最长时长
     2) 角色一致性(同一角色跨镜头)
     3) 商用授权条款
     4) 公开定价
     输出表格 + 每行注明信息来源 URL 和发布日期。」

关键三要素:

  1. 指名实体——具体产品 / 公司 / 论文 / 时间窗,不要”AI 行业”这种抽象词
  2. 指明维度——你想横向对比什么列,列清楚
  3. 指明输出格式——表格 / 带 H2 的报告 / Markdown 列表

Step 3:把”让它搜”改成”让它读你提供的源”

如果你已知最权威的几个源(官方文档、白皮书、特定博客),直接把 URL 贴进 prompt:

请基于以下 5 个 URL 撰写对比报告:
- https://...
- https://...
(最多 5 个,多了它会抽样)
之外允许补充至多 5 条外部源,但不要替代上述。

这样可以绕开”抓不到 X 站”的问题。

Step 4:拆任务分多次跑

如果一次 prompt 涉及 3 个完全不同的子题(比如同时要”市场规模” + “技术原理” + “商业模式”),不如分 3 次跑,每次只问一个子题,最后人工合并。Deep Research 单任务做得越深越好,做得越宽越浅。

Step 5:换语言再试

如果中文跑出来的报告引用全是低质中文源,把同一个 prompt 翻成英文跑一次。英文源池子大得多,质量通常更高。完成后让 GPT-5.5 把英文报告翻成中文。

Step 6:导出 + 二次校对

Deep Research 报告偶尔会”捏造引用”——URL 真实但里面没说报告里写的那句话。重要场景下,按报告 Sources 列表手动抽 3 条点开核对再发出去。

预防建议

  • Deep Research 用于”已经知道方向,要深挖证据”的场景,不是”我也不知道我要什么”——后者先用普通对话先聊清楚边界。
  • 月初做一次配额规划:把当月真正需要 Deep Research 的 5–10 个题目列出来,按重要性排队,不要在 trivia 上消耗次数。
  • 凡是产出要对外发布的报告,引用都手工抽查至少 3 条——这是模型层面无法保证的。
  • 学会”prompt 模板化”:维护 3–5 个验证过好用的模板(市场对比、技术尽调、竞品研究),新题套模板比从头写靠谱。

相关阅读

标签: #ChatGPT #排查