用 Claude 读 200 页 PDF：长文档研究工作流

claude.ai 单个 PDF 最多 100 页，200 页的报告必须先拆分。本文给出深度精读、逐条带页码引用的完整步骤（2026 年 6 月）。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

你没法把一份 200 页的 PDF 直接丢进 claude.ai 做精读。截至 2026 年 6 月，claude.ai 会拒绝任何超过 100 页或 32 MB 的 PDF；即便文件能塞进去，把长文档放进 Project 知识库后它会悄悄切到检索（RAG）模式，不再通读全文。靠谱的做法是：把 PDF 拆成每份不超过 100 页的小份，上传到同一个聊天（不是 Project 知识库），让 Claude 在完整上下文里通读，然后跑一套固定的带引用提示词——阅读地图、分节提取、跨节冲突扫描、最弱论证审计、批评者问题——最后人工核读 Claude 标出来的关键页。批量环节用 Claude Sonnet 4.6，最终批判环节切到 Opus 4.7。

你真正要对付的限制

这里硬限制很关键，动手前先记清楚（claude.ai，截至 2026 年 6 月）：

限制	数值	为什么卡你
单个 PDF 页数上限（claude.ai 上传）	100 页	200 页报告直接被拒
单个 PDF 文件大小上限	32 MB	扫描件 / 图多的报告很快撞线
单个对话文件数上限	20 个	拆成 2-4 份完全够用
聊天上下文窗口（付费档，Opus 4.7 / Sonnet 4.6）	500K tokens	≈ 同时容纳 350-380 页密集正文
Project 知识库	容量大，但内容溢出上下文时切到 RAG 检索	检索可能漏掉第 142 页的某处矛盾

其中两条决定成败。第一，100 页上传上限意味着 200 页文档不可能作为单文件上传——必须拆。第二点不太明显：如果你把文档放进 Project 知识库，一旦内容超出活动上下文，Claude 就把它当检索源。检索适合”在很多文件里找关于 X 的条款”，但对”把这一份文档从头读到尾、揪出每一处内部矛盾”恰恰是错的模式。单份长文档要放进聊天的活动上下文里，让 Claude 每一轮都通读全文。

经验法则：多份文档、偶尔查找 → 用 Project。一份文档、逐字精读 → 用聊天上传。 本文讲的是后者。

这篇适合谁看

一次处理一两份长文档的分析师、研究人员、法务 / 政策人员——白皮书、年报、诉讼文书、标准草案等——需要逐字精读并带引用，而不是在上百份来源里做格局扫描。

具体步骤

0. 拆分 PDF 绕开 100 页上限

200 页报告必须拆成两份不超过 100 页的文件。用 qpdf（免费、可脚本化），页码保持可预测：

# 把 200 页 PDF 拆成 1-100 / 101-200
qpdf --pages document.pdf 1-100 -- document.pdf doc_part1.pdf
qpdf --pages document.pdf 101-z -- document.pdf doc_part2.pdf

如果某一份仍超过 32 MB（扫描件常见），先压缩：

# 把扫描件 PDF 降采样压到 32 MB 以下
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.5 -dPDFSETTINGS=/ebook \
   -dNOPAUSE -dQUIET -dBATCH -sOutputFile=doc_small.pdf document.pdf

尽量把切点对齐到真实章节边界——一节跨在第 100 / 101 页之间，后面分析起来更费劲。

1. 开一个聊天（别用 Project），把所有分片都传进去

在 claude.ai 里开个新聊天。重的提取环节把模型设为 Sonnet 4.6（更快更省，付费档下和 Opus 一样是 500K 上下文）。把 doc_part1.pdf 和 doc_part2.pdf 拖进来——单个对话最多放 20 个文件，2-4 份毫无压力。放在同一个聊天里，才能保证全上下文通读、而不是走检索。

把你的”阅读契约”作为第一条消息粘进去：

你的角色：资深 [领域] 文档分析师（法务 / 政策 / 行业报告 / 学术）。

阅读目标：[例 "为决策者扫出本白皮书的核心主张、最弱论证、以及与现有政策的冲突点，
出一份 1500 字 brief"]

读者：[例 "我和我老板；决策者；每人 10 分钟读时间"]

绝对规则：
- 每个事实声明都带页码或节号引用：[p.42] 或 [sec 3.2]
- PDF 已拆成 part 1（原文 p.1-100）和 part 2（原文 p.101-200）；
  始终引用「原文页码」，不要用分片内部页码
- 只用这些文件里的信息。需要查外部时，先停下来告诉我
- 不许编造数字、引语、页码
- 用中文输出

“原文页码”这条很重要：拆分后 Claude 默认引用每份分片内部的页码，会把你的引用全打乱。

2. 先做阅读地图

先别要总结。先让 Claude 告诉你该看哪里：

基于已上传的文件，输出一份阅读地图。这一步不要总结内容。

1. 目录：所有一级 / 二级标题，标出原文页码范围
2. 长度分布：每个一级章节约多少页、占全文百分比
3. 重点章节：基于阅读目标，哪 3-5 节最值得深读？为什么
4. 跳过候选：哪些节明显跟目标无关、可以略读？

这一步几乎不花成本，能让你省下精读样板内容的时间。信它之前，拿真实 PDF 核一下页码范围。

3. 关键节深度提取

对步骤 2 选出的每个重点章节：

深度处理"[节标题]" [sec [n]，原文 p.[起]-[止]]：

1. 用 5 句话概括核心主张，每句末标 [p.[页码]]
2. 列出关键数据 / 引语 / 时间节点，逐条带页码引用
3. 列出与文档其他节冲突或表述不一的主张（说明是哪一节）
4. 列出隐含假设（作者依赖但从未明说的前提）
5. 列出本节最弱的 1-2 条论证（证据薄 / 循环论证 / 推论跳跃）

引用必须能在 PDF 里找到。如果某条原文找不到，
明确写"未在文档中找到"——不要编造。

4. 跨节冲突扫描

500K 上下文的聊天在这里最值钱——Claude 能同时拿住两份分片，拿第 30 页对照第 170 页：

把两份分片当作同一份文档整体扫描。找出每一处内部矛盾。每条：

- 主张 A：[陈述] [sec, p.]
- 主张 B：[与 A 冲突的陈述] [sec, p.]
- 冲突类型：数字 / 立场 / 时间 / 定义
- 严重程度：高 / 中 / 低

只用文档自身判断一致性，不要引入外部常识。
若一处都没有，就说"未发现明显内部矛盾"——不要硬造。

5. 最弱论证审计

通读全文，列出最弱的 5 个论证。每条：

主张：[引用作者原文，带页码]
弱点类型：证据薄 / 来源单一 / 循环论证 / 推论跳跃 / 偷换概念 / 选择性数据
为什么弱：[1-2 句]
审稿人会怎么质疑：[1 个具体问题]

按"对结论的影响"排序——首位是即便其他都成立、这条若假就推翻主结论的。

最终这一轮批判，把模型切到 Opus 4.7。按 Anthropic 公布的数据它推理更强，而成本差距（API：Opus 4.7 每百万 token 输入 / 输出 $5/$25，对 Sonnet 4.6 的 $3/$15）摊到这几轮分析上几乎可忽略。

6. 批评者问题清单

假设你是这份文档的 [审稿人 / 反对派智库分析师 / 媒体调查记者]，列 10 个最尖锐的问题：

- 每个指向具体页码
- 每个都不能靠"再读一遍文档"回答（必须需要外部数据或重新分析）
- 别用泛泛的"是否全面 / 是否客观"——要 specific

把这些问题的答案置顶成一条”待答清单”，出 brief 之前先逐条解决。

7. 人工深读关键页

Claude 已经把有争议、支撑薄、自相矛盾的地方浮现出来了。打开真实 PDF，跳到：

步骤 4 里所有”高”严重程度的冲突页
步骤 5 里前 3 条最弱论证所在页
步骤 3 里写了”未在文档中找到”的页——Claude 可能引错了，自己核实

把人工读出的修正喂回聊天，让 Claude 重新生成 brief。清爽的产出目录结构：

claude_longdoc_[topic]/
├── 00_instructions.md
├── 01_reading_map.md
├── 02_per_section_extracts.md
├── 03_cross_section_conflicts.md
├── 04_weakest_arguments.md
├── 05_critic_questions.md
└── 06_final_brief.md

文档超过 500 页怎么办

拆成三份以上时，两份可能就同时装不进 500K 上下文了。两种办法：

逐份跑分节提取，再做一次汇总轮：汇总轮只加载步骤 3 的提取结果（几千 token）加上冲突扫描提示词，体量小到足以一次性对照全部内容。
改用 API 或 Claude Code：那里 Opus 4.7 和 Sonnet 4.6 能达到 1M token 窗口——约 75 万词，足以把一份约 700 页的文档放进单一上下文，不必拆分走检索。

容易踩的坑

把要精读的文档放进 Project。 它会切到 RAG 检索，悄悄不再通读全文。改用聊天上传。
想整份上传 200 页 PDF。 claude.ai 会在 100 页上限处拒绝。先拆。
引用分片内部页码。 不加”原文页码”指令，part 2 里的”p.40”其实是原文 p.140。开头就把映射钉死。
只要”一份总结”。 总结恰好会抹平你要找的那些矛盾和薄弱环节。
冲突地图不读原文就当定稿。 每一处”高”严重程度的标记都要人工核实。

常见问题

Claude 真能读 200 页 PDF 吗？ 单次上传不行——claude.ai 单文件上限是 100 页、32 MB（截至 2026 年 6 月）。拆成每份不超过 100 页放进同一个聊天即可。拆分加载后，Opus 4.7 和 Sonnet 4.6 在付费档下能容纳最高 500K token 聊天上下文，足以同时跨两份分片推理。

为什么用聊天上传，而不是 Claude Project？ Project 知识库是为多文件、查找式检索设计的；内容超出活动上下文后会切到 RAG，可能漏掉单页上的某处矛盾。单份文档要让它完整进入聊天的活动上下文。多份文档加偶尔查找，才是 Project 的用途。

用 Sonnet 4.6 还是 Opus 4.7？ 批量提取用 Sonnet 4.6——付费档同样 500K 上下文，更快更省。最弱论证和批评者这两轮最看重推理质量的环节，切到 Opus 4.7。

为什么不直接用 ChatGPT 或 Gemini？ 现在三家都能处理长文档。ChatGPT Plus 的应用内上下文约 320 页（完整 1M 仅 $200 Pro 档），Gemini 3.1 Pro 自带 1M token。Claude 在这里的优势是上面那套结构化、重引用的提取流程；若要真正 1M token、单上下文不拆分通读，Claude 走 API / Claude Code 或用 Gemini 3.1 Pro 更合适。

需要哪个 Claude 套餐？ Claude Pro（$20/月，年付 $17）能覆盖多数长文档活，并在 Opus 4.7 和 Sonnet 4.6 上提供 500K 聊天上下文。只有长会话频繁撞用量上限时，才升到 Max（$100/$200）。

一句话总结

你真正要对付的限制

这篇适合谁看

具体步骤

0. 拆分 PDF 绕开 100 页上限

1. 开一个聊天（别用 Project），把所有分片都传进去

2. 先做阅读地图

3. 关键节深度提取

4. 跨节冲突扫描

5. 最弱论证审计

6. 批评者问题清单

7. 人工深读关键页

文档超过 500 页怎么办

容易踩的坑

常见问题

相关阅读

相关文章

AI 竞品调研实操：30 分钟扫 5 家

AI 历史档案研究：原始资料优先的工作流

AI 市场规模估算实操：自上而下 + 自下而上 TAM/SAM/SOM

AI 系统文献综述实操：不让模型乱编

怎么核查 AI 引用与来源：一套 4 趟核验工作流

AI 事实核验工作流：3 分钟核一条主张