问 AI”1848 年春天维也纳发生了什么”——你拿到一段任何百科全书都能给你的二手综述。真正的档案研究从一份原始文献开始:一封信、一本账册、一份教区登记、一份法庭卷宗,然后向外读。AI 帮你找文献、辨手写、翻陌生语言、对日期。它不替你看那张扫描件。这篇把历史学者和正经家谱研究者正在收敛到的那套工作流走一遍。
这篇讲什么
一个原始资料优先的研究工作流,AI 只承担四件窄事:定位合适的档案馆和卷宗、识读手写或老印刷字、翻译当时语言、把日期对到不同历法和已知事件。最终产出是你自己从亲手翻开的文献里做的笔记——AI 只是让这些文献变得可读的助手。
这篇适合谁看
历史方向研究生、做检索辅助工具的档案员、追 1900 年前家谱的认真玩家、把线索追进档案馆的记者、以及希望细节能扛住专家审视的历史小说作者。不适合休闲式”X 年发生了什么”的好奇——那种翻一篇维基更快,也同样准。
什么时候适合用
要查的人、事、地都很具体,能进真正的档案(线上或线下),愿意在原文语种和字体上读原始文献。不适合:问题太宽(“文艺复兴”)——先收窄,AI 替不了你收窄。
开始前准备
- 把问题写到能再窄一点的程度。“1812 年维也纳圣斯德望教区登记簿上,谁作为 Maria Schmidt 的教父签了字?“是可查的;“1812 年的维也纳”不是。
- 圈定候选档案馆。国家档案馆、教区档案馆、市政档案馆、大学馆藏——各有目录。AI 能给候选,但替不了你查目录。
- 建一份笔记文件,每份你真正翻开的文献开一节。先放著录信息(档案馆、宗卷、盒号、folder、件号),再写你的读后。
- 选带视觉的模型:Claude Opus 4.7、GPT-5.5、或 Gemini 3 Pro。你要上传扫描件做识读。
具体步骤
- 让 AI 推荐档案馆,不要让它直接回答问题。“研究 [人 / 事件 / 地点] 在 [时期],哪些国家、地方、教会、大学档案馆收藏了相关宗卷?按馆名 + 可能的系列具体列。“拿到名单后,每家档案馆自己验,自己上他们的线上目录。
- **目录检索你自己做。**这一步没有 AI。档案目录用规范用语、当时的命名习惯、自有的索引系统——AI 在这些上面不灵。卡住就去馆里的咨询台——他们才是真专家。
- **拿到候选文献,把扫描件传给 AI 帮你识读。**德文 Kurrent、意大利文人体、18 世纪英国 chancery——AI 现在都能凑合,但总会某处出错。“逐行转写这张扫描件;不确定的地方用 [?] 标记。“那个方括号标记不能省。
- **逐行把转写跟扫描件对一遍。**尤其是人名、日期、数字。AI 会自信地编出和字体风格匹配、听起来很像的名字。这是整套流程里保真度最高的一步。
- 翻译要带上下文,不要孤立地翻。“翻译这段 18 世纪意大利公证文档;标出任何古语或固定套语并解释其含义。“那段解释比翻译本身更有价值。更宏观的研究工作流可参照 AI 行业研究工作流——抽查的纪律是一样的。
- **日期要对到正确的历法。**1582 年前的天主教欧洲是儒略历;1752 年前的英国是儒略历;东欧到 20 世纪还在用儒略历。让模型先确认这份文献用哪本历法、必要时换算——然后再用文献里已知的某个事件做 sanity check。
- **笔记里要有原文引文、你的转写或翻译、以及页 / folio 出处。**不引原文就不要意译。回不到原来那一行,你就保护不了那条引用。
第一次实操怎么跑
挑一份网上能调出来的单页文献——某教区登记簿的一页、一封一页信、一条公证记录。把整套流程在这一件上跑完:AI 转写、对扫描件验、翻译、对一个日期。掐表。多数第一次跑一份文献 45-60 分钟;这就是档案工作的实际单位,AI 适度压缩,不会显著压缩。
完成后检查
- 每条转写都对照扫描件逐行读过。不确定处都标了。
- 人名、日期都二次核对过。这是 AI 最常出错的位置。
- 翻译都附了古语、缩写、套语的注释——不是只给一段现代化译文。
- 日期都换算到了统一历法,并把换算过程写了出来。
- 每条笔记都能溯回档案馆的著录体系。没有 folio 编号的”这封信说”不算引用。
怎么复用这套流程
- 给你反复遇到的字体和语种做一份小抄。AI 帮你过第一遍识读;时间长了,常见缩写你自己就认了。
- 把转写 prompt 和翻译 prompt 按时期存成模板。18 世纪公证体和 19 世纪教区登记体的 prompt 不一样。
- 维护一份”翻过的文献”清单,每条一句话总结。长项目下来,这份清单就是档案馆本该有但没给你的那份索引。
建议的操作流程
收窄问题 → 候选档案馆 → 自己查目录 → 上传扫描件 → AI 转写带不确定标记 → 逐行核对 → 带古语注释的翻译 → 历法换算 → 带完整著录的笔记。一份文献一个 45-60 分钟工作块。
容易踩的坑
- 没翻过任何原始资料就让 AI”总结一下”——你写的其实是维基。
- 不对扫描件核就信转写——AI 会编出风格匹配的假名字。
- 用翻译时丢掉古语注释——你失去了法律或宗教套语,而这些往往是最有信息量的部分。
- 历法搞混。“日期差 11 天”几乎全是儒略历 / 格里高利历的换算问题,不是错。
- 著录纪律松散。没有 folio 编号的笔记,你在脚注里也保护不了。
- 没读之前就问 AI”这份文献讲什么”——它会自信地答错。
FAQ
- 老手写体用哪个模型?: 主流厂商的视觉模型对常见字体都能跑;Kurrent 和文人体目前 Claude Opus 4.7 和 Gemini 3 Pro 最稳。重度残损的文献都不可靠。
- 从右往左的文字(阿拉伯文、希伯来文)呢?: 现代印刷体行;手写差。奥斯曼或拉比手稿请逐行验。
- AI 能在档案里替我找某个人吗?: 间接能。它能建议去哪里找,真正的姓名匹配仍要在有索引的目录或数字检索辅助上做。
- 版权和档案馆使用条款怎么办?: 不少档案馆限制把扫描件上传第三方服务。投档前先看条款;有些要求只能本地处理。
- 原始资料能意译吗?: 引过一次原文之后可以。意译是工作笔记,引文才是引用。