AI 系统文献综述实操:不让模型乱编

把 AI 当作筛选和综合的辅助层,而不是引文生成器——这样才能做出真正能交差的系统综述。

让 AI”写一篇文献综述”——你最后会拿到一篇四页长、夹着七条编造引用、外加一篇已被撤稿论文的散文。真正的系统综述仍然需要你自己定纳入标准、上真实的数据库、做筛选、做提取。AI 的位置只有三个:筛选、提取、综合——绝不是生成引用。这篇把整套闭环走一遍,能砍掉大约一半的杂活,又不丢严谨度。

这篇讲什么

一个真正的系统综述工作流,AI 只承担三件事:按你的纳入标准筛摘要、从你下载下来的全文里抽结构化数据、在每一条主张都能指回某篇编号论文的前提下帮你起草综合段落。整个工作流假设你按 PRISMA 类规范来做,不是”扫一眼总结一下”。

这篇适合谁看

写综述章节的博士生、做 meta 分析的博后、医学 / 政策 / 教育领域的证据综合团队、以及任何要写一段”文献怎么说”的咨询师。不适合休闲阅读——休闲读用 AI 论文阅读工作流 更快。

什么时候适合用

研究问题已经定下、能上对应数据库(PubMed、Scopus、Web of Science、ACM、Semantic Scholar)、且候选文献多到没法线性读。不适合:领域候选不足 20 篇——直接手读;或者要投的期刊明确禁止 AI 辅助筛选——投稿前先查作者指南。

开始前准备

  • 写好 PICO 或同等框架。Population、Intervention、Comparator、Outcome——或你领域的等价问法。没有它,筛选会滑成”看感觉”。
  • 提前定好数据库和检索式。AI 不替你跑数据库检索,你自己跑。
  • 提前定好每篇纳入论文要抽的字段:研究设计、样本、方法、主要结果、效应量、局限。开始筛选前就把提取表的列锁死。
  • 选长上下文模型:Claude Sonnet 4.6 或 Opus 4.7、GPT-5.5、Gemini 3 Pro。小模型在提取阶段会丢论文后半段的细节。

具体步骤

  1. **数据库检索你自己跑。**PubMed、Scopus、Semantic Scholar——按你领域来。把结果导出成 RIS 或 CSV。AI 不负责检索,只负责筛选。这种分工是综述能站住脚的核心理由。
  2. **AI 作为第二评审做标题摘要筛选。**一次贴 20-50 条摘要,附上纳入标准。问”逐条输出 INCLUDE、EXCLUDE 或 UNCLEAR,并给一句话理由,对应到我哪条标准”。UNCLEAR 一律升级到全文复审。
  3. **跟你自己第一评审的结果对一遍。**分歧本身就是信号——它暴露纳入标准里的模糊处。多数综述在这一步会重写 1-2 条标准。
  4. **下载纳入集合的所有全文。**这是不可商量的。没下载的论文你不能抽数据。建一个文件夹,命名格式 第一作者_年份_id.pdf
  5. **逐篇抽数据。**上传 PDF,问:“抽出研究设计、样本量、干预、对照、主要结局、效应量(含置信区间)、作者自承的最大局限。按列顺序输出一行用竖线分隔的值。“相关单篇阅读流程见 AI 论文阅读工作流——这里的提取步骤就是那边 pass 2 的结构化版本。
  6. **抽查 20% 的行回到原文核对。**打开 PDF,找到数字。如果 AI 把效应量或样本量抽错了,那是校准问题——换模型或缩短 prompt。
  7. **起草综合段落。**按研究设计或干预类型把纳入论文聚类。让 AI 每个聚类写一段,只允许用你的数字 ID 引用。绝不允许 AI 自己编作者名和年份。

第一次实操怎么跑

挑你这篇综述的一个子问题——窄到 10-15 篇就能覆盖。在这个子问题上把整套闭环跑完。每一阶段掐表。多数团队会发现筛选压缩最多、提取中等、综合最少。用各阶段耗时来估整篇综述的预算;子问题结果也顺便检验你的纳入标准是否够清晰。

完成后检查

  • 提取表里每一格都能对应到 PDF 里的句子或表格——抽 20% 核对。
  • 你和 AI 在筛选阶段的分歧都有记录,不是被悄悄盖过去。
  • 综合段落里没有任何编造引用——每个数字 ID 都能在下载文件夹里找到对应论文。
  • 效应量要么带置信区间、要么明确写”未报告”,绝不只给一个孤零零的数字。
  • 综合段落要有形状:已确立、存在争议、缺口。如果整篇都”已确立”,那是你在给这个领域戴高帽。

怎么复用这套流程

  • 把纳入标准、提取列、筛选 prompt 存成 review_template.md。换问题、换检索式,骨架不变。
  • 维护一份模型校准日志:哪个模型在哪个领域抽效应量准、命中率多少。综述越多,这份日志越值钱。
  • 保留筛选阶段的分歧对账记录。审稿人问”模糊样本怎么处理”时,要的就是这份证据。

建议的操作流程

PICO 问题 → 检索式 → 数据库结果 → AI 第二评审筛选 → 对账 → 下载全文 → 结构化提取 → 抽 20% 核对 → 聚类综合 → 用数字 ID 引用。AI 辅助下 100 篇综述大概一周,线性读需要三周。

容易踩的坑

  • 让 AI”找相关论文”——它替代不了你的数据库检索,会编引用。
  • 跳过提取阶段的抽查——自信的错误会进表,并一路活到 meta 分析。
  • 让 AI 自己聚类——它会按表面话题分,不会按机制分。
  • 筛选阶段把 UNCLEAR 当 EXCLUDE 处理——你会丢掉最有意思的边界论文。
  • 长论文用短上下文模型——后半段被压缩成总结。
  • 没记 prompt 版本。审稿人会问哪个 prompt 跑了哪一次筛选。

FAQ

  • 期刊会接受 AI 辅助综述吗?: 看作者指南。多数允许筛选和提取使用 AI 但要披露;少数允许 AI 生成的散文未经修改使用。如实披露你用了什么。
  • 提取用哪个模型?: 优先长上下文。微妙领域选 Claude Sonnet 4.6 或 Opus 4.7;超长 PDF 选 Gemini 3 Pro。
  • 每次筛多少篇?: 一批 20-50 条摘要。超过 50 条模型会开始把标准平均化。
  • 非英语论文怎么办?: 筛选阶段 AI 翻译可用,但提取阶段风险高。纳入的非英语论文,方法部分请找人工翻译。
  • 要不要配 Rayyan 或 Covidence?: 要。AI 是筛选助手,不是工作流工具——审计链交给 Rayyan 或 Covidence。

相关阅读

标签: #lit-review #研究 #教程