让 AI”写一篇文献综述”——你最后会拿到一篇四页长、夹着七条编造引用、外加一篇已被撤稿论文的散文。真正的系统综述仍然需要你自己定纳入标准、上真实的数据库、做筛选、做提取。AI 的位置只有三个:筛选、提取、综合——绝不是生成引用。这篇把整套闭环走一遍,能砍掉大约一半的杂活,又不丢严谨度。
这篇讲什么
一个真正的系统综述工作流,AI 只承担三件事:按你的纳入标准筛摘要、从你下载下来的全文里抽结构化数据、在每一条主张都能指回某篇编号论文的前提下帮你起草综合段落。整个工作流假设你按 PRISMA 类规范来做,不是”扫一眼总结一下”。
这篇适合谁看
写综述章节的博士生、做 meta 分析的博后、医学 / 政策 / 教育领域的证据综合团队、以及任何要写一段”文献怎么说”的咨询师。不适合休闲阅读——休闲读用 AI 论文阅读工作流 更快。
什么时候适合用
研究问题已经定下、能上对应数据库(PubMed、Scopus、Web of Science、ACM、Semantic Scholar)、且候选文献多到没法线性读。不适合:领域候选不足 20 篇——直接手读;或者要投的期刊明确禁止 AI 辅助筛选——投稿前先查作者指南。
开始前准备
- 写好 PICO 或同等框架。Population、Intervention、Comparator、Outcome——或你领域的等价问法。没有它,筛选会滑成”看感觉”。
- 提前定好数据库和检索式。AI 不替你跑数据库检索,你自己跑。
- 提前定好每篇纳入论文要抽的字段:研究设计、样本、方法、主要结果、效应量、局限。开始筛选前就把提取表的列锁死。
- 选长上下文模型:Claude Sonnet 4.6 或 Opus 4.7、GPT-5.5、Gemini 3 Pro。小模型在提取阶段会丢论文后半段的细节。
具体步骤
- **数据库检索你自己跑。**PubMed、Scopus、Semantic Scholar——按你领域来。把结果导出成 RIS 或 CSV。AI 不负责检索,只负责筛选。这种分工是综述能站住脚的核心理由。
- **AI 作为第二评审做标题摘要筛选。**一次贴 20-50 条摘要,附上纳入标准。问”逐条输出 INCLUDE、EXCLUDE 或 UNCLEAR,并给一句话理由,对应到我哪条标准”。UNCLEAR 一律升级到全文复审。
- **跟你自己第一评审的结果对一遍。**分歧本身就是信号——它暴露纳入标准里的模糊处。多数综述在这一步会重写 1-2 条标准。
- **下载纳入集合的所有全文。**这是不可商量的。没下载的论文你不能抽数据。建一个文件夹,命名格式
第一作者_年份_id.pdf。 - **逐篇抽数据。**上传 PDF,问:“抽出研究设计、样本量、干预、对照、主要结局、效应量(含置信区间)、作者自承的最大局限。按列顺序输出一行用竖线分隔的值。“相关单篇阅读流程见 AI 论文阅读工作流——这里的提取步骤就是那边 pass 2 的结构化版本。
- **抽查 20% 的行回到原文核对。**打开 PDF,找到数字。如果 AI 把效应量或样本量抽错了,那是校准问题——换模型或缩短 prompt。
- **起草综合段落。**按研究设计或干预类型把纳入论文聚类。让 AI 每个聚类写一段,只允许用你的数字 ID 引用。绝不允许 AI 自己编作者名和年份。
第一次实操怎么跑
挑你这篇综述的一个子问题——窄到 10-15 篇就能覆盖。在这个子问题上把整套闭环跑完。每一阶段掐表。多数团队会发现筛选压缩最多、提取中等、综合最少。用各阶段耗时来估整篇综述的预算;子问题结果也顺便检验你的纳入标准是否够清晰。
完成后检查
- 提取表里每一格都能对应到 PDF 里的句子或表格——抽 20% 核对。
- 你和 AI 在筛选阶段的分歧都有记录,不是被悄悄盖过去。
- 综合段落里没有任何编造引用——每个数字 ID 都能在下载文件夹里找到对应论文。
- 效应量要么带置信区间、要么明确写”未报告”,绝不只给一个孤零零的数字。
- 综合段落要有形状:已确立、存在争议、缺口。如果整篇都”已确立”,那是你在给这个领域戴高帽。
怎么复用这套流程
- 把纳入标准、提取列、筛选 prompt 存成
review_template.md。换问题、换检索式,骨架不变。 - 维护一份模型校准日志:哪个模型在哪个领域抽效应量准、命中率多少。综述越多,这份日志越值钱。
- 保留筛选阶段的分歧对账记录。审稿人问”模糊样本怎么处理”时,要的就是这份证据。
建议的操作流程
PICO 问题 → 检索式 → 数据库结果 → AI 第二评审筛选 → 对账 → 下载全文 → 结构化提取 → 抽 20% 核对 → 聚类综合 → 用数字 ID 引用。AI 辅助下 100 篇综述大概一周,线性读需要三周。
容易踩的坑
- 让 AI”找相关论文”——它替代不了你的数据库检索,会编引用。
- 跳过提取阶段的抽查——自信的错误会进表,并一路活到 meta 分析。
- 让 AI 自己聚类——它会按表面话题分,不会按机制分。
- 筛选阶段把 UNCLEAR 当 EXCLUDE 处理——你会丢掉最有意思的边界论文。
- 长论文用短上下文模型——后半段被压缩成总结。
- 没记 prompt 版本。审稿人会问哪个 prompt 跑了哪一次筛选。
FAQ
- 期刊会接受 AI 辅助综述吗?: 看作者指南。多数允许筛选和提取使用 AI 但要披露;少数允许 AI 生成的散文未经修改使用。如实披露你用了什么。
- 提取用哪个模型?: 优先长上下文。微妙领域选 Claude Sonnet 4.6 或 Opus 4.7;超长 PDF 选 Gemini 3 Pro。
- 每次筛多少篇?: 一批 20-50 条摘要。超过 50 条模型会开始把标准平均化。
- 非英语论文怎么办?: 筛选阶段 AI 翻译可用,但提取阶段风险高。纳入的非英语论文,方法部分请找人工翻译。
- 要不要配 Rayyan 或 Covidence?: 要。AI 是筛选助手,不是工作流工具——审计链交给 Rayyan 或 Covidence。
相关阅读
标签: #lit-review #研究 #教程