Claude Files 进阶——上传和检索工作流

Claude 的文件处理是它的最强项。这是让检索真正生效的喂料方法。

这篇主要解决什么问题

把文件丢上去问”总结”,拿到任何 LLM 都能产出的安全网泛话。Claude 在喂得对的前提下强很多,但你得知道怎么喂。这篇给上传法律合同、研究论文、财报、长文字稿或多文件比对的人——在这些场景,有用回答和危险回答的差别就在 Claude 是否真把答案钉在源上。

这篇适合谁看

上传 PDF、合同、论文、文字稿、代码、大数据集到 Claude 并指望答案能直接行动的人。尤其法律、财务、研究、M&A 尽调、新闻。

什么时候适合用

长文件(50+ 页)、多文件比对、要引用具体段落、要反复使用的文件、或任何幻觉答案有真实成本的场景。被 ChatGPT 的文件处理坑过的也来——Claude 在这块真的更强,但前提是你上传得对。

什么时候不建议用

含敏感 PII 或不可披露信息的文件;超出上传上限的大文件;Google 搜一下就有答案的简单问题;没文本层的二进制格式(裸图、加密 PDF)。

开始前准备

  • 文件改清晰名:“contract-vendor-a-2026.pdf” 不要 “Final_v3 (1).pdf”。Claude 在答里引用文件名,可读很重要。
  • 能砍就砍非必要页。600 页报告带 580 页附录,比你实际需要的 20 页钉得差。
  • 提前定 citation 格式:页码、章节标题或两者都要。第一条 prompt 就写清楚,Claude 才一致执行。
  • 旁边另开一份独立副本核查。第一遍什么都别信。

具体步骤

  1. 上传前先把文件改成 Claude 能引用的名字(“contract-vendor-a-2026.pdf”,不是 “Final_v3 (1).pdf”)。
  2. 多文件一条消息一起上传,让 Claude 知道它们是一组,能立刻问对比类问题。
  3. 上传后第一句:分别描述每个文件是什么、有哪些章节、大致大小。先不要总结。 这逼 Claude 先盘点再解读。
  4. 长 PDF 先要目录。再一节一节深入问。跨整文档的大范围问题会在中段悄悄掉。
  5. 每条结论都要原文引语 + 页码。“引用相关段落和页码 / 章节标题。” 转述但无来源的答案直接拒收。
  6. 表格 / 数据让它输出结构化 CSV / Markdown——比散文更好验证。重要数字手算一行验。
  7. 同一份文件要反复用,放进 Project 里,不用每次重新上传。见 Claude Projects

第一次实操怎么跑

  1. 选一份你读过的 30-50 页文档。已知内容方便看出幻觉。
  2. 在新对话里按顺序跑步骤 3-5,保留答案。
  3. 数一下:Claude 给出的所有结论里,引用的页码真有那条结论的占比多少?
  4. 不到 90% 就把 prompt 的 citation 要求写得更严,重跑。

完成后检查

  • 每条数字或引语都有页 / 节标注。重要文档没例外。
  • 至少手工验证过 3 条原文引用。挑最反直觉的几条。
  • 清楚文件里”没有”什么(没有被编造的章节)。问 这份文件里没有哪些章节? 作 sanity check。
  • 多文件场景下每条答都注明来自哪份文件。Claude 把来源搅一起就用显式文件名锚点反推。

怎么复用这套流程

  • 把 prompt 集合存模板(“标准合同审阅问题”、“标准论文抽取”)。
  • 反复使用的文件类型建 Project,自定义指令写 永远引用页码;没来源就拒答,加固定结构。
  • 每季度跑一次流程:每 3 个月用新文件复测,确认 Claude 行为没漂移。
  • 维护一份过往幻觉清单——失败模式会复现,命名后下次更易识别。

建议的操作流程

200 页报告:上传 → 要目录和章节大小 → 深入第 4 节 → 每条数字都要页码 → 导出结构化 Markdown 表 → 手算 3 个数字验 → prompt 集合存下次用。

FAQ

  • 文件大小限制?: 按 plan 和文件类型变。超出就拆文件或先抽相关章节。
  • 上传的文件会被拿来训练吗?: 默认不会,Anthropic 不拿消费者对话训练。具体看你的 plan 条款。
  • 能处理带公式的 Excel 吗?: 读值不读公式。要审公式就导出 CSV 并显式说明。
  • OCR 差的扫描 PDF?: 密扫质量降。让它”以纯文本输出可疑那页”再肉眼检查。
  • PDF 里的图能被理解吗?: 示意图基本可以;图注一般能读;复杂多轴图表会读错。
  • 怎么干净对比两份合同?: 一次都传上,prompt 里给每份角色(“文件 1 = 当前合同,文件 2 = 改稿;列每条改动并各引原文”)。

容易踩的坑

  • 没看清文件结构就要”总结”。拿到”听着对的废话”。
  • 一次混传 10 个不相关文件。Claude 答题会把来源搅在一起。
  • 相信无来源结论。一定要回去要原文 + 页码。
  • 以为 Claude 的 OCR 完美。重扫描 PDF 里有的段落可能乱码——肉眼抽查。
  • 整文档一次问一个大范围问题——中段召回悄悄掉。
  • Project 里不清文件——旧版会和当前版混,搅乱答案。

进阶技巧

  • 多文件比对在 prompt 里给文件清晰角色:“文件 1 是合同;文件 2 是 proposal;找出冲突条款。”
  • 代码文件用代码块粘贴而非上传——Claude 对内联代码处理更直接。
  • 页面乱码时让它把那一页”以纯文本输出”,肉眼看 OCR 问题。
  • 审计级用 JSON 结构:输出为 JSON,字段:claim、file、page、quote、confidence_low|med|high。便于脚本验证。

怎么验收输出

  • 每条数字或引语都有页 / 节标注。
  • 至少手工验证过 3 条原文引用。
  • 清楚文件里”没有”什么(没有被编造的章节)。
  • Prompt 集合存好下次用。

相关阅读

标签: #Claude #教程 #工作流 #PDF