这篇讲什么
Deep Research 是慢车道。你给 ChatGPT 一个问题,它花 15-30 分钟从几十个来源里拉资料,返回一份带引用的多段综合。结果看着可信,于是大家就跳过了核实——而核实恰恰是 Deep Research 这种模式最需要你做的事。这篇适合那种读者真的会去核引用、核数字、核逻辑的简报,普通 ChatGPT 调研已经太浅、撑不住场面的场景。
这篇适合谁看
写那种可能会被人转给行业专家看的简报:投资备忘录、竞品分析、政策简报、尽调写作、买之前的技术评估。如果你的读者愿意接受”ChatGPT 这么说”,你不需要 Deep Research,你需要一段话。如果不接受,Deep Research 是合适的档位——但前提是你会好好定题、好好核实。
什么时候适合用
- 简报需要综合 15-30 个来源,而不是 3-5 个。
- 问题跨多个领域,一轮搜索盖不全。
- 你能等 15-30 分钟回来看一份像样的初稿。
- 你有时间在发稿前做核实——不核实的 Deep Research 比不做调研更危险,因为输出看着更可信。
开始前准备
- 把问题收窄到一句话。“对一支 200 人的数据团队、每月 5TB 批处理 ETL,比 X 和 Y 在 Z 上的拥有成本”比”讲一讲 X”强得多。
- 提前定好什么算可接受来源:同行评议?行业分析师?厂商白皮书?随便一个 Substack?运行前写下来。
- 日历上单独留核实的时间——不只是等待。核实的耗时和跑的耗时差不多。
- 选可用的最深档模型。Deep Research 跑在弱推理模型上,综合会变浅。
具体步骤
-
像给一个仔细的分析师下任务那样写定题 prompt,不是像给搜索引擎:
对比 Snowflake 和 Databricks 的拥有成本——对象是 一支 200 人的数据团队、每月跑 5TB 批 ETL。 来源要覆盖厂商文档、近 18 个月发表的第三方基准、 至少两个独立客户案例。仅来自厂商的断言要标出来。 -
启动。然后去做点别的有用的事,20 分钟。别坐着盯——“是不是卡了?“的本能没有帮助。
-
回来后先看结构,不要先读正文。该有的小节都在吗?引用是逐条挂在断言后面,还是只堆在结尾?
-
先读引用列表,再读正文。如果来源集中在某一家厂商的站点上,综合一定是偏向那家厂商的叙事。
-
随机挑 5-8 条引用打开核:页面存在吗?真说了简报里转述的那句话吗?
-
找出最可能出错的 2-3 条断言(具体数字、正面对比、近期日期),用原始来源核,而不是用被引用的二手综述。
一份能压住 Deep Research 的 prompt
Deep Research 简报。
约束:
- 没有来源的断言,标"无来源——模型推断"。
- 不要把厂商市场材料和独立基准混在一起,
当成两类证据分别处理。
- 任何数字(价格、市场规模、增速)要引用一手来源,
不是某篇引用了它的二手文章。
- 来源之间有分歧时,把分歧露出来,不要平均掉。
- 最后加一节"最弱证据",列出支撑最差的 3 条断言。
最有用的是结尾那一条”最弱证据”——它强迫模型自查,列出来的恰恰是你最该去核的。
完成后检查
- 厂商对比相关的引用 100% 点开——这是虚构和日期漂移最严重的地方。
- 每个量化断言都用原始来源核。Deep Research 对二手综述太信任。
- 在快速变化的领域里,看到 24 个月以上的引用就警觉——通常说明搜索没找到当前的数据。
- 问自己:“这份简报里少了什么、一个领域专家一定会写的?“答不上来,简报还没准备好发。
怎么复用这套流程
- 存一份
deep-research-template.md,固定你的定题 prompt 结构和”最弱证据”结尾。 - 对会重复出现的简报类型(季度竞品扫描、厂商评估),把成功的一次跑成结构模板——复用小节标题,不复用内容。
- 给每个领域维护一个可信来源白名单(你认可的分析师、出版方、厂商文档)。把它粘到定题 prompt 里,模型会偏向这些。
建议的操作流程
收窄问题 → 写带来源分类规则的定题 prompt → 启动 → 20 分钟休息 → 先扫结构 → 看引用列表 → 抽核 5-8 个来源 → 数字断言对一手核 → 最后一遍对抗性通读。
容易踩的坑
- 把输出当终稿。它是一份强的初稿和一份引用地图。仅此而已。
- 因为正文听起来很权威就跳过核实。Deep Research 的”自信度 / 准确度”比是最高的——这正是它最容易翻车的地方。
- 题定得太宽。“讲讲 AI 基础设施市场”会得到一摊东西,模型聚不焦 30 个来源。
- 厂商来源和独立来源不区分。半篇简报最后都是在复读厂商自己的叙事。
- 用 Deep Research 干普通调研就够的活。等待是真实成本,10 分钟联网就能答的问题别烧这个时间。
- 不预留核实时间。跑 20 分钟、只核 5 分钟,比跑 5 分钟普通调研、认真核还差。
FAQ
- 和普通 ChatGPT 调研有什么区别?: 普通调研是一发一发打的,你逐轮引导。Deep Research 是慢批处理,覆盖的来源多得多。当”浅”是你真正的问题时,才上慢车道。
- 引用能信吗?: URL 存在的概率比”它真说了那句话”高。点进去核,转述漂移是主要的失败模式。
- 如果跑超过 30 分钟还没完?: 有时会。明显过了 45 分钟还卡着,就取消重定题——通常是题太宽或来源空间太乱。
- 可以用 Deep Research 替代雇一个初级分析师吗?: 一次性简报,常常可以。需要持续覆盖的领域,不行——你需要一个慢慢积累领域知识的人,不是每周从零跑一次。