这篇主要解决什么问题
把文件丢上去问”总结”,拿到任何 LLM 都能产出的安全网泛话。Claude 在喂得对的前提下强很多,但你得知道怎么喂。这篇给上传法律合同、研究论文、财报、长文字稿或多文件比对的人——在这些场景,有用回答和危险回答的差别就在 Claude 是否真把答案钉在源上。
这篇适合谁看
上传 PDF、合同、论文、文字稿、代码、大数据集到 Claude 并指望答案能直接行动的人。尤其法律、财务、研究、M&A 尽调、新闻。
什么时候适合用
长文件(50+ 页)、多文件比对、要引用具体段落、要反复使用的文件、或任何幻觉答案有真实成本的场景。被 ChatGPT 的文件处理坑过的也来——Claude 在这块真的更强,但前提是你上传得对。
什么时候不建议用
含敏感 PII 或不可披露信息的文件;超出上传上限的大文件;Google 搜一下就有答案的简单问题;没文本层的二进制格式(裸图、加密 PDF)。
开始前准备
- 文件改清晰名:“contract-vendor-a-2026.pdf” 不要 “Final_v3 (1).pdf”。Claude 在答里引用文件名,可读很重要。
- 能砍就砍非必要页。600 页报告带 580 页附录,比你实际需要的 20 页钉得差。
- 提前定 citation 格式:页码、章节标题或两者都要。第一条 prompt 就写清楚,Claude 才一致执行。
- 旁边另开一份独立副本核查。第一遍什么都别信。
具体步骤
- 上传前先把文件改成 Claude 能引用的名字(“contract-vendor-a-2026.pdf”,不是 “Final_v3 (1).pdf”)。
- 多文件一条消息一起上传,让 Claude 知道它们是一组,能立刻问对比类问题。
- 上传后第一句:
分别描述每个文件是什么、有哪些章节、大致大小。先不要总结。这逼 Claude 先盘点再解读。 - 长 PDF 先要目录。再一节一节深入问。跨整文档的大范围问题会在中段悄悄掉。
- 每条结论都要原文引语 + 页码。“引用相关段落和页码 / 章节标题。” 转述但无来源的答案直接拒收。
- 表格 / 数据让它输出结构化 CSV / Markdown——比散文更好验证。重要数字手算一行验。
- 同一份文件要反复用,放进 Project 里,不用每次重新上传。见 Claude Projects。
第一次实操怎么跑
- 选一份你读过的 30-50 页文档。已知内容方便看出幻觉。
- 在新对话里按顺序跑步骤 3-5,保留答案。
- 数一下:Claude 给出的所有结论里,引用的页码真有那条结论的占比多少?
- 不到 90% 就把 prompt 的 citation 要求写得更严,重跑。
完成后检查
- 每条数字或引语都有页 / 节标注。重要文档没例外。
- 至少手工验证过 3 条原文引用。挑最反直觉的几条。
- 清楚文件里”没有”什么(没有被编造的章节)。问
这份文件里没有哪些章节?作 sanity check。 - 多文件场景下每条答都注明来自哪份文件。Claude 把来源搅一起就用显式文件名锚点反推。
怎么复用这套流程
- 把 prompt 集合存模板(“标准合同审阅问题”、“标准论文抽取”)。
- 反复使用的文件类型建 Project,自定义指令写
永远引用页码;没来源就拒答,加固定结构。 - 每季度跑一次流程:每 3 个月用新文件复测,确认 Claude 行为没漂移。
- 维护一份过往幻觉清单——失败模式会复现,命名后下次更易识别。
建议的操作流程
200 页报告:上传 → 要目录和章节大小 → 深入第 4 节 → 每条数字都要页码 → 导出结构化 Markdown 表 → 手算 3 个数字验 → prompt 集合存下次用。
FAQ
- 文件大小限制?: 按 plan 和文件类型变。超出就拆文件或先抽相关章节。
- 上传的文件会被拿来训练吗?: 默认不会,Anthropic 不拿消费者对话训练。具体看你的 plan 条款。
- 能处理带公式的 Excel 吗?: 读值不读公式。要审公式就导出 CSV 并显式说明。
- OCR 差的扫描 PDF?: 密扫质量降。让它”以纯文本输出可疑那页”再肉眼检查。
- PDF 里的图能被理解吗?: 示意图基本可以;图注一般能读;复杂多轴图表会读错。
- 怎么干净对比两份合同?: 一次都传上,prompt 里给每份角色(“文件 1 = 当前合同,文件 2 = 改稿;列每条改动并各引原文”)。
容易踩的坑
- 没看清文件结构就要”总结”。拿到”听着对的废话”。
- 一次混传 10 个不相关文件。Claude 答题会把来源搅在一起。
- 相信无来源结论。一定要回去要原文 + 页码。
- 以为 Claude 的 OCR 完美。重扫描 PDF 里有的段落可能乱码——肉眼抽查。
- 整文档一次问一个大范围问题——中段召回悄悄掉。
- Project 里不清文件——旧版会和当前版混,搅乱答案。
进阶技巧
- 多文件比对在 prompt 里给文件清晰角色:“文件 1 是合同;文件 2 是 proposal;找出冲突条款。”
- 代码文件用代码块粘贴而非上传——Claude 对内联代码处理更直接。
- 页面乱码时让它把那一页”以纯文本输出”,肉眼看 OCR 问题。
- 审计级用 JSON 结构:
输出为 JSON,字段:claim、file、page、quote、confidence_low|med|high。便于脚本验证。
怎么验收输出
- 每条数字或引语都有页 / 节标注。
- 至少手工验证过 3 条原文引用。
- 清楚文件里”没有”什么(没有被编造的章节)。
- Prompt 集合存好下次用。