ChatGPT Deep Research 失败：原因与修复

Q: 为什么 Deep Research 突然开始给又短又浅的报告？

你多半用完了*完整版*的当月配额，ChatGPT 没有明显提示就把你切到了轻量版。它仍会 browse，但结果更短、源更少。去 Settings 看用量，或等当月重置。

Q: Deep Research 会占用我整个 ChatGPT 上下文窗口吗？

不会。browse agent 在各个子 query 之间自己管理上下文，不受你这段对话的应用内上下文限制。档位限制限的是每月*次数*，不是 token 长度。

Q: 任务卡在 "Researching…"，或提示 "Deep research request failed"，是我的 prompt 问题吗？

大概率不是。这种现象通常是服务端故障——去 [status.openai.com](https://status.openai.com) 看一眼。如果有正在进行的 Deep Research 故障，等会儿再试，别反复重跑，因为失败的任务历史上是会扣配额的。

Q: 我需要的某个站点一次都没出现在引用里，为什么？

很多站点用 `robots.txt` 或 Cloudflare 封掉了 OpenAI 的 `OAI-SearchBot` / `ChatGPT-User` 爬虫（X、LinkedIn、付费墙 Substack、内网等）。要么把具体 URL 贴进 prompt，要么用 **Sites → Manage sites** 钉住该域名，让它直接去试。

Q: 能让它只引用可信、权威的源吗？

可以。在 prompt 窗口打开 **Sites → Manage sites**，用英文逗号分隔填入你的域名，然后选"只用这些站"或"优先这些站、但仍搜全网"。这是在医学、法律、金融类话题上提升引用质量最可靠的办法。

跑了 Deep Research，10 分钟后却拿到一份单薄、泛泛的报告，或者直接报错——配额被降级、prompt 太模糊、目标站抓不到，还是服务端故障？逐项判断。

发布于: 2026/05/21 更新于: 2026/06/15 作者: AI Productivity Guide Team 🌐 查看英文版本

Deep Research 是 ChatGPT 的”后台研究 agent”：给它一个 prompt，它会花大约 5–30 分钟自己 browse 几十个网页和 PDF，生成一份带引用的报告。它的失败模式和普通对话不同：大多数时候没有明显报错，你只是拿到一份”看似完整但全是泛泛而谈”的报告、一份比预期单薄很多的报告，或者干脆一个 Deep research request failed 的硬错误。

最快的排查：在怪 prompt 之前，先确认你拿到的是不是完整版。截至 2026 年 6 月，一旦用完当月的完整版次数，ChatGPT 会悄悄把你切到轻量版 Deep Research（一个 o4-mini 级别的模型）——它仍然会 browse，但报告更短、更浅、引用源更少。这一条解释了绝大多数”它怎么突然变差了”的抱怨。排查顺序：先看服务状态，再看配额档位，再看 prompt 质量，最后才看被封的站点。

先确认你正确地启动了它（否则它会静默失败）

有两个流程细节，在任何”bug”出现之前就会把人坑住：

入口（截至 2026 年 6 月）：在输入框里点 +（Tools）菜单，选 Deep research。已经没有独立的工具栏按钮了——如果你不是从这个菜单里选的，得到的只是一份看起来像研究、其实是普通对话的回答。
澄清问题这一步是强制的、也是关键的。真正的 Deep Research 几乎总是先回你 2–4 个澄清问题，外加一份可编辑的研究计划（research plan），确认后才离开去 browse。如果你的任务立刻开始 browse、一个问题都没问，那你多半根本没触发 Deep Research（见下面的判断表）。把问题答清楚——这里答得敷衍，是报告泛泛而谈的头号原因。

常见原因

按命中率从高到低：

1. 月配额用完，被静默降级到轻量版

Deep Research 每月有按账号档位的次数。截至 2026 年 6 月，官方公布的额度大致如下：

档位	每月完整版 Deep Research	每月轻量版
Free（$0）	0	约 5
Plus（$20）/ Team	约 10	额外 15
Pro（$100）	约 50	（共享/更高）
Pro（$200）	约 125	额外 125

完整版次数用完后，Deep research 选项还在，但 ChatGPT 会自动切到轻量版。OpenAI 的原话是：“Responses will typically be shorter while maintaining the depth and quality you’ve come to expect.”（回答通常更短，但尽量保持深度与质量。）实际效果就是 browse 的源更少、综合更浅——读起来就像”它变笨了”。

如何判断：点头像 → Settings → 找 Deep Research / agent 用量；或者直接拿报告对照 Step 1 的判断表。完整版一次通常 1,500–4,000 字、10–40 条源；轻量版明显更短、源更少。

2. 服务端故障——“Deep research request failed” / 卡在 “Researching…”

这是一类和你 prompt 无关的真实、反复出现的故障：任务卡在 “Researching…” 不动、返回 Deep research request failed、或者出现一个永远停在 Starting… 0 的按钮。过去的故障期间，失败的任务照样扣配额，却没出报告。

如何判断：去 status.openai.com 看有没有正在进行的 “Increased error rates for Deep Research” 故障。如果挂着，就不是你的问题，等它恢复。如果在已确认的故障期间有一次失败白扣了次数，可以通过 ChatGPT 客服申请恢复配额。

3. Prompt 太宽泛，agent 早早放弃

Deep Research 内部会先做一次”任务分解”，把你的 prompt 拆成约 5–10 个子 query。如果原始 prompt 没有可分解的维度（比如”帮我研究一下 AI”），分解器会输出大量重叠的子任务，agent 跑几轮就判定”信息冗余、收益不够”自行停下。

如何判断：看报告底部的 Sources 数量。少于约 8 条、且大量来自同一域名（如全是 Wikipedia / Medium），就是它早停了。

4. 目标站点反爬（robots.txt / Cloudflare）

OpenAI 的 OAI-SearchBot 和 ChatGPT-User UA 在某些站点（X/Twitter、LinkedIn、Quora、Substack 付费墙、企业内网、部分新闻站）会被 robots.txt 或 Cloudflare 防火墙拒绝。Deep Research 抓不到这些页面时不会停，但报告里这些来源会缺失，导致结论偏向它能抓到的少数源。

如何判断：报告 Sources 里如果某个你明显该出现的站点（行业头部博客）一次都没出现，多半是被它的服务器拒了。

5. 输出语言和 prompt 语言错位

如果 prompt 是中文但你要英文报告（或反过来），分解出的子 query 可能拉回错误语言的源，导致引用质量下降。跨语言研究是它的弱项。

如何判断：报告里中英源比例和你期望的不一致，就是这个问题。

6. 单次任务文件 / URL 输入超限

prompt 里贴了 10+ 个 URL 或 3+ 个 PDF 时，agent 可能不会逐一处理，而是抽样几个就开始写。

如何判断：报告引用没有覆盖你贴的所有 URL，就是被抽样了。

最短修复路径

按”省时间”排序——先做 30 秒能验证的步骤。

Step 1：确认你拿到的是完整版（不是轻量版，也不是降级）

直接从回答本身就能看出来：

特征	完整版 Deep Research	轻量版 / 降级
开跑前的澄清问题 + 可编辑计划	有	常被跳过
进度界面（“Researching… / Browsing…”）	有，分多阶段，可中途打断细化	很短或没有
总耗时	5–30 分钟	常 `<= 3 分钟`
底部 Sources 块	10–40 条	很少或稀疏
报告长度	约 1,500–4,000 字	常 `<= 1,000` 字

如果是轻量版，说明完整版当月配额已用完：等下月重置、升一档，或在低风险问题上接受更短的输出。

Step 2：把 prompt 改成”可分解、有边界”的形式

差 prompt → 好 prompt 的改造模板：

差：「帮我研究一下 AI 视频生成工具」
好：「对比 Sora、Veo 3、Kling 在以下 4 个维度的差异：
     1) 单镜头最长时长
     2) 角色一致性（同一角色跨镜头）
     3) 商用授权条款
     4) 公开定价
     输出表格 + 每行注明信息来源 URL 和发布日期。」

关键三要素：

指名实体——具体产品 / 公司 / 论文 / 时间窗，不要”AI 行业”这种抽象词。
指明维度——你想横向对比哪些列，列清楚。
指明输出格式——表格 / 带 H2 的报告 / Markdown 列表。

然后把它的澄清问题答具体。“直接开跑”等于浪费一次配额。

Step 3：把它限定到你信任的源（Feb 2026 起内置）

与其指望它自己找到好源，不如直接告诉它用哪些。在 prompt 窗口里打开 Sites → Manage sites，二选一：

只在你填入的域名里研究，或
选 “Prioritize these sites, but allow full-web search”（优先这些站、但仍搜全网），在强调它们的同时保留全网搜索。

域名用英文逗号分隔，例如医学话题填 nih.gov, who.int，产品对比就填官方文档域名。这样能绕开”抓不到 X 站”，并大幅提升医学、法律、金融、政府类话题的引用质量。你仍可以在 prompt 正文里贴具体 URL（控制在约 5 个以内，多了会被抽样）。

Step 4：拆任务、分多次跑

如果一次 prompt 涉及 3 个完全不同的子题（比如”市场规模” + “技术原理” + “商业模式”），不如分 3 次跑、每次只问一个子题，最后人工合并。Deep Research 做深远比做宽强。

Step 5：换语言再试

如果中文跑出来的报告引用全是低质中文源，把同一个 prompt 翻成英文跑一次——英文源池子大得多、质量通常更高。完成后让 GPT-5.5 把英文报告翻回中文。

Step 6：导出 + 二次校对引用

Deep Research 偶尔会”捏造引用”——URL 真实，但里面并没有报告里写的那句话。凡是要对外发布的内容，按 Sources 列表手动抽 3 条点开核对再发出去。

如何确认已修好

按上面的修复做完后，一次成功的运行应该是这样：回答澄清问题 → 出一份可编辑的计划 → 进入 5–30 分钟的 browse，过程中有可中途打断的实时进度 → 最终一份约 1,500 字以上、含 10 条以上不同来源的报告，并且包含你在 Step 3 钉住的域名。如果你还是拿到一份只有 <= 8 条源的单薄报告，那要么你在轻量版档位（Step 1），要么你对澄清问题的回答太模糊（Step 2）。

预防建议

Deep Research 用于”已经知道方向、要深挖证据”的场景，不是”我也不知道我要什么”——后者先用普通对话聊清楚边界。
月初做一次配额规划：把当月真正需要完整版 Deep Research 的 5–10 个题目列出来按重要性排队，不要在 trivia 上消耗完整版次数，那些用轻量版或普通对话即可。
任何受监管话题，都先用 Sites → Manage sites 钉住可信域名——这是最便宜的可靠性提升。
凡是要对外发布的报告，引用都手工抽查至少 3 条——这是模型层面无法替你保证的。
维护 3–5 个验证过好用的 prompt 模板（市场对比、技术尽调、竞品研究）。新题套现成模板，比从头写靠谱。

常见问题

为什么 Deep Research 突然开始给又短又浅的报告？ 你多半用完了完整版的当月配额，ChatGPT 没有明显提示就把你切到了轻量版。它仍会 browse，但结果更短、源更少。去 Settings 看用量，或等当月重置。

Deep Research 会占用我整个 ChatGPT 上下文窗口吗？ 不会。browse agent 在各个子 query 之间自己管理上下文，不受你这段对话的应用内上下文限制。档位限制限的是每月次数，不是 token 长度。

任务卡在 “Researching…”，或提示 “Deep research request failed”，是我的 prompt 问题吗？ 大概率不是。这种现象通常是服务端故障——去 status.openai.com 看一眼。如果有正在进行的 Deep Research 故障，等会儿再试，别反复重跑，因为失败的任务历史上是会扣配额的。

我需要的某个站点一次都没出现在引用里，为什么？ 很多站点用 robots.txt 或 Cloudflare 封掉了 OpenAI 的 OAI-SearchBot / ChatGPT-User 爬虫（X、LinkedIn、付费墙 Substack、内网等）。要么把具体 URL 贴进 prompt，要么用 Sites → Manage sites 钉住该域名，让它直接去试。

能让它只引用可信、权威的源吗？ 可以。在 prompt 窗口打开 Sites → Manage sites，用英文逗号分隔填入你的域名，然后选”只用这些站”或”优先这些站、但仍搜全网”。这是在医学、法律、金融类话题上提升引用质量最可靠的办法。