PDF 总结翻车通常因为”总结一下”。好总结按需求匹配深度:60 秒一瞥、高管 1 页、按节细读、批判审计。这些模板针对每种深度和每种 PDF 类型。
这套 Prompt 主要解决什么问题
“总结这份 PDF”得到 Wikipedia 风格的摘要——对高管太模糊、对研究者太浅。这些 Prompt 强制深度、受众和输出形状,让总结真能用,不是只产出。
这篇适合谁
每周筛 20 篇论文的研究者;earnings call 前读行业报告的分析师;做合同一审的法务相邻岗位;从竞品 deck 和 pitchbook 提 takeaway 的创始人;准备研讨会讨论的学生;任何为 PDF 付时间、希望 PDF 用决策回报的人。
什么时候不建议用
短文档(≤3 页)——直接读。需要原文引用的 PDF——总结会丢精确措辞,法务 / 学术工作需要的。来源不可信的 PDF——AI 总结一份误导性来源会产出自信的误导性总结。
Prompt 结构公式
一个 PDF 总结 Prompt 应包含 6 个要素:
- PDF 类型:研究论文 / 行业报告 / 合同 / pitch deck / 财报。
- 读者角色:谁读总结(高管、研究者、律师、你)。
- 深度档:60 秒一瞥 / 1 页高管 / 按节细读 / 批判审计。
- 提取目标:主张、方法、风险、义务、行动项。
- 验证钩:“每个主张引用页 / 节”或”列出你用的引文”。
- 诚实规则:模型标出推断 vs PDF 明示。
这套 Prompt 适合用在哪
- 行业报告(Gartner、McKinsey、行业展望)
- 学术论文(摘要 / 方法 / 结果 / 局限)
- 合同(我方义务、对方义务、终止、责任)
- 财报(10-K、10-Q、earnings transcript)
- Pitch deck(主张审计、ask、traction)
- 长内部备忘和战略文档
- 多 PDF 对比(信哪份)
17 个可直接复制的 Prompt 模板
1. 60 秒一瞥
读附件 PDF。输出:1 句这是什么、3 句核心发现、1 句我应注意的局限。其他不要。总共 ≤100 字。
2. 高管 1 页
为不会读全文的高管总结:5 个 bullet(每 ≤20 字)、1 行关键风险、1 个我应问作者的问题。结尾 1 句"用这份做什么"建议。
3. 按节总结
按节输出总结。每节:1 行标题 + 2–3 bullet + 页码。跳过纯格式节(目录、引用)。任何长度只值 1 bullet 的节标"薄"。
4. 批判阅读
以怀疑评审员身份读 PDF。输出:3 个最强主张及证据、3 个最弱主张及缺什么、3 个我会问作者的问题。每个弱主张:什么具体数据或引用能补强。
5. 两份 PDF 对比
我有 2 份 PDF。对比:论点、方法、证据质量、结论。结尾:"只信一份的话,信哪份、为什么"。再列 1 个能帮我决定的问题。
6. 从报告提行动项
这是行业 / 战略报告。提取:对 {我的角色} 的 5 条可行动 takeaway。每个:行动、为什么重要、何时行动(现在 / 下季度 / 仅监控)、1 个行动风险。
7. 合同 / 条款总结
这是合同。输出:(a) 我方义务、(b) 对方义务、(c) 终止条款、(d) 责任上限和赔偿、(e) 任何非常规 / red-flag 条款。不给法律意见——只是结构化总结附页码。标出任何非标语言供法务审查。
8. 黑话转人话
识别 PDF 中最常用的 10 个技术术语。每个用人话 1 句话定义。然后只用这些人话定义重新总结摘要。输出:术语表 + 人话摘要。
9. 学术论文深读
这是学术论文。输出:(a) 1 句研究问题、(b) 3 句方法、(c) 关键发现编号 bullet 附效应量、(d) 局限 bullet(拆作者承认 vs 我推断)、(e) 这篇论文使能的 3 个后续研究。
10. 财报(10-K / 10-Q)总结
这是公开公司财报。输出:(a) 同比上行 / 下行、(b) 表现最好的 3 个 segment、最差的 3 个、(c) 与去年不同的 3 个风险因素、(d) 1 段 MD&A 中的前瞻评论。带页码。
11. Pitch deck 审计
这是 pitch deck。输出:(a) ask(金额、用途)、(b) 3 个最强主张、(c) 3 个最弱 / 未验证主张、(d) traction 指标及度量期间(标出缺期间的)、(e) 团队和主张的 mismatch(如有)。
12. 方法核查
下面是论文或报告。只审计方法:样本量与选择、对照组、统计方法、混杂因素是否承认或漏。每个弱点:1 句描述、严重度(高 / 中 / 低)、什么引用能修。
13. 报告主张 vs 引用核对
下面是报告。挑 5 个最重要的主张。每个:主张、引用来源(或"无引用")、来源是否支撑主张的诚实评估(是 / 部分 / 否,附理由)。找到 2 个无来源主张就停。
14. 提取数据表
这份 PDF 含表和图。输出:(a) 每个表的标题和页码、(b) 最常引用的 3 个数据点及来源表、(c) 正文引用但没出现在表里的数字(可能是计算或无源)。
15. 决策导向总结
我有一个决定要做:{decision}。只针对该决定总结这份 PDF。输出:(a) 支撑决定的事实、(b) 反对的事实、(c) 能 tipping 的缺失事实、(d) 诚实 1 句话建议。
16. 长 PDF 分块总结
PDF 100+ 页。两 pass 总结:pass 1——按节 bullet(模板 #3)。pass 2——把节 bullet 合成 1 页高管摘要,引用回节号。输出两 pass。
17. 读完测我
200 字总结。然后输出 5 个 PDF 中能找到答案的问题——3 个事实型、2 个推断型。我答后给我打分并指出每题对应的页。用来测试我的理解,不只是总结覆盖。
容易踩的坑
- “总结一下”没约束。 输出泛、无深度。
- 不抽查就信总结。 尤其数值主张——对要引用的 PDF,手动验证 2–3 个。
- 跳过局限 / 弱点。 偏颇来源的总结也偏颇。
- 不是高管却要”高管摘要”。 你要细节;“高管”=1 页就结束。
- PDF 长过上下文还硬塞。 长 PDF 要分块总结(模板 #16),不是截断单 pass。
- 无页码引用。 没引用的总结无法验证。
- 合同当报告处理。 合同总结要结构化法务式(模板 #7),不是 bullet。
下一步怎么继续提升
- 永远在前面告诉模型 PDF 类型(论文 / 报告 / 合同 / deck)。同个 Prompt 在有无类型间质量差天大。
- 每个主张都强制页码引用(模板 #3、#7、#10)。既强制 grounding 又便于抽查。
- 长 PDF 先分块再合成(模板 #16)。单 pass 处理 100+ 页会漏后半。
- 研究论文跑模板 #9 紧接 #12。无方法核的发现是装饰品。
- 要采取行动的 deck 和报告,决定前跑模板 #13。多数捏造藏在无引用主张里。
- 总结 + Q&A 配ChatGPT PDF 总结工作流迭代深度,无需重传文件。
- 分拣 20+ PDF 时配一瞥 + 决策导向(模板 #1 + #15)——只留能推决定的。
FAQ
- PDF 多长 AI 就吃不消? 单 pass 大约到 100k tokens(~200 页密 PDF)。再长用分块总结(模板 #16)。
- 能信模型对合同的总结吗? 一审可以。绝不能是唯一一审。要签的东西必须在原文上做法律审查,不是在总结上。
- 长 PDF 最好的模型是? Claude 长上下文、Gemini 极长(1M tokens)、GPT-class 适合较短 / 推理重。见Claude 长文档研究,或走 1M 上下文路线的Gemini PDF 总结工作流。
- 能处理扫描 PDF 吗? 只在 OCR 过后能。纯图 PDF 需要先 OCR,模型不能像素级可靠地读原文引用。
- 表和图呢? 表:可以,如果是文字编码。图:模型只能描述它看到的;数字必须从图背后的数据表验证。
- 非英文 PDF 应该用英文 Prompt 吗? 用 PDF 语言提问以保引文保真度。需要时末尾再加一轮翻译。
相关阅读
- 研究总结 Prompt —— 研究论文专用深度
- 文献综述 Prompt —— 跨多篇论文合成
- 文献矩阵 Prompt —— 跨论文结构化对比表
- 会议纪要 Prompt —— 转录稿用(不是 PDF)
- 行动项提取 Prompt —— 从任何长文提 takeaway
- ChatGPT PDF 总结 —— 含迭代的串联工作流
- Claude 长文档研究 —— 100+ 页 PDF 的最佳模型设定
- AI 论文阅读工作流 —— 端到端论文筛选 loop
- AI PDF 总结用例 —— 含质量检查的端到端示例
- 用 AI 总结 10-K / 年报:给非投资者的一页 Brief