期刊会接受 AI 辅助综述吗？

多数允许筛选和提取使用 AI，但要披露；少数允许 AI 生成的散文未经修改使用。截至 2026 年 6 月，预期的披露格式是 PRISMA-trAIce 清单（14 项）——记下工具、版本、阶段和 prompt。同时也要查具体期刊的作者指南。

让 AI 单独做筛选安全吗？

不安全。2025 年基于 Cochrane 语料的测试显示 LLM 敏感度接近 100% 但精确度低，而 Cochrane 的明确立场是：现有证据不支持没有人工监督的生成式 AI。把它当第二评审用。

提取用哪个模型？

优先长上下文。微妙领域选 Claude Sonnet 4.6 或 Opus 4.7；超长 PDF 选 Gemini 3.1 Pro。截至 2026 年 6 月，它们都提供 100 万 token 窗口。

每批筛多少篇摘要？

20-50 条。超过 50 条模型会开始把标准平均化。

非英语论文怎么办？

筛选阶段 AI 翻译可用，但提取阶段风险高。纳入的非英语论文，方法部分请找人工翻译。

要不要配 Rayyan 或 Covidence？

要，跟 LLM 一起用。它们装着聊天窗口给不了的审计链和 PRISMA 流程图。Rayyan 有免费档（3 个综述）；Covidence（约 340 美元/年）是 Cochrane 协议的标准工具。

AI 工具教程

AI 系统文献综述实操：不让模型乱编

把 AI 当作筛选和提取的辅助层，而不是引文生成器——附 2026 年 6 月的工具、prompt 与披露规范，做出真正能交差的 PRISMA 级系统综述。

发布于: 2026/05/23 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

让 AI”写一篇文献综述”——你最后会拿到一篇四页长、夹着七条编造引用、外加一篇已被撤稿论文的散文。真正的系统综述仍然需要你自己定纳入标准、跑真实的数据库检索、做筛选、做提取。AI 只在三个位置能站住脚：给摘要做分流、从你下载下来的全文里抽结构化数据、在每一条主张都能指回某篇编号论文的前提下帮你起草综合段落。这篇把整套闭环走一遍，既保住 PRISMA 级的严谨度，又能砍掉大约一半的杂活。

一句话总结

AI 负责筛选、提取、起草综合段落。它不替你跑数据库检索，也不生成引用。
截至 2026 年 6 月，AI 辅助综述的报告规范是 PRISMA-trAIce（共 14 项，2025 年 12 月 10 日发表于 JMIR AI）：记下每个工具、版本、prompt，以及它用在了哪一步。
长上下文模型才值回票价：Claude Opus 4.7 / Sonnet 4.6（100 万 token）、Gemini 3.1 Pro（100 万）、GPT-5.5。短上下文模型在提取时会丢论文后半段。
AI 筛摘要的敏感度极高（2025 年基于 Cochrane 语料的测试里可达 100%），但精确度低——把它当成一个”偏向纳入”的第二评审，绝不能当唯一把关人。
Cochrane 的明确立场（2025）：现有证据不支持在没有人工监督的情况下用生成式 AI 做证据综合。审计链要照这个标准搭。

这篇讲什么

一个真正的系统综述工作流，AI 只承担三件事：按你的纳入标准筛摘要、从你下载下来的全文里抽结构化数据、在每条主张都能指回某篇编号论文的前提下帮你起草综合段落。整个工作流假设你按 PRISMA-2020 规范来做，并照 PRISMA-trAIce 那样披露 AI 用法，不是”扫一眼总结一下”。

这篇适合谁看

写综述章节的博士生、做 meta 分析的博后、医学 / 政策 / 教育领域的证据综合团队、以及任何要写一段”文献怎么说”的咨询师。不适合休闲阅读——休闲读用 AI 论文阅读工作流更快。

什么时候适合用

研究问题已经定下、能上对应数据库（PubMed、Scopus、Web of Science、ACM、Semantic Scholar）、且候选文献多到没法线性读。不适合：领域候选不足 20 篇——直接手读；或者要投的期刊明确禁止 AI 辅助筛选——投稿前先查作者指南。

先选好工具

有两层东西：一层是装审计链的工作流工具（去重、双人筛选、PRISMA 流程图），一层是负责”读”的长上下文 LLM。别把两者塞进同一个聊天窗口——审稿人要的是产出物，不是聊天记录。以下价格均为 2026 年 6 月口径：

工具	角色	免费档	付费（个人）	备注
Rayyan	筛选 + 审计链	3 个进行中综述、2 名评审	Essential 4.99 美元/席位/月，Advanced 8.33 美元/席位/月（按年付）	Advanced 含 AI PICO 提取；学术 license 25 美元/月
Covidence	完整 SR 工作流	限量试用综述	约 340 美元/年/评审	Cochrane 的标准工具；内置 PRISMA 报告
Elicit	检索发现 + 提取	每月限量额度	20 美元/月	基于 Semantic Scholar 语料检索 2 亿+ 篇论文
ASReview	主动学习筛选	免费开源	—	自托管；适合超大候选集
Claude / ChatGPT / Gemini	提取 + 综合	免费档（有限额）	20 美元/月（Pro/Plus）	你花钱买的就是长上下文，模型对比见下表

个人综述大多用 Rayyan 加一个长上下文聊天模型就够了。走 Cochrane 协议的团队默认用 Covidence。

选模型

模型	上下文窗口	最适合	注意
Claude Opus 4.7	100 万 token	微妙提取、有争议领域	成本较高（API 5/25 美元每百万 token）
Claude Sonnet 4.6	100 万 token	默认主力	—
Gemini 3.1 Pro	100 万 token	超长 PDF、多篇批处理	表格提取要复核
GPT-5.5	应用内约 320 页（Plus）；完整 100 万仅 200 美元 Pro 档	快速筛选	应用内上下文比 API 窄

提取阶段优先选 100 万 token 的模型，这样一篇 30 页、方法部分很重的论文能完整塞进去不被截断。按基准事实，Claude Code 只跑 Anthropic 模型——如果你要脚本化提取，这点有关系。

开始前准备

写好 PICO 或同等框架。Population、Intervention、Comparator、Outcome——或你领域的等价问法。没有它，筛选会滑成”看感觉”。
提前定好数据库和检索式。AI 不替你跑数据库检索，你自己跑。
开始筛选前就把提取表的列锁死：研究设计、样本、方法、主要结果、效应量（含置信区间）、局限。
现在就开一份披露日志。PRISMA-trAIce 要的是工具名、版本（比如”Claude Opus 4.7，2026 年 6 月”）、用在哪一步、以及一字不差的 prompt。综述做完再补这些会很痛苦。

具体步骤

**数据库检索你自己跑。**PubMed、Scopus、Semantic Scholar——按你领域来。把结果导出成 RIS 或 CSV。AI 不负责检索，只负责筛选。这种分工是综述能站住脚的核心理由。
**筛选前先去重。**Rayyan 和 Covidence 会自动去重；如果你在聊天窗口里做，先在文献管理软件里去重。重复命中会悄悄抬高你的计数和 PRISMA 流程图。
**AI 作为第二评审做标题摘要筛选。**一次贴 20-50 条摘要，附上纳入标准。问”逐条输出 INCLUDE、EXCLUDE 或 UNCLEAR，并给一句话理由，对应到我哪条标准”。2025 年基于 Cochrane 语料的诊断准确度测试显示，LLM 敏感度接近 100% 但精确度低，所以 prompt 要偏向纳入，UNCLEAR 一律升级到全文复审。
**跟你自己第一评审的结果对一遍。**分歧本身就是信号——它暴露纳入标准里的模糊处。多数综述在这一步会重写 1-2 条标准。记录评审间一致性；PRISMA-trAIce 要求你把人工排除和 AI 排除分开。
**下载纳入集合的所有全文。**这是不可商量的。没下载的论文你不能抽数据。建一个文件夹，命名格式 第一作者_年份_id.pdf。
**逐篇抽数据。**上传 PDF，问：“抽出研究设计、样本量、干预、对照、主要结局、效应量（含置信区间）、作者自承的最大局限。按列顺序输出一行用竖线分隔的值。“这里的提取步骤就是 AI 论文阅读工作流里 pass 2 的结构化版本。
**抽查 20% 的行回到原文核对。**打开 PDF，找到数字。如果 AI 把效应量或样本量抽错了，那是校准问题——换模型或缩短 prompt。
**起草综合段落。**按研究设计或干预类型把纳入论文聚类。让 AI 每个聚类写一段，只允许用你的数字 ID 引用。绝不允许它自己编作者名和年份；进稿前先过一遍 AI 引用核查工作流。

第一次实操怎么跑

挑你这篇综述的一个子问题——窄到 10-15 篇就能覆盖。在这个子问题上把整套闭环跑完。每一阶段掐表。多数团队会发现筛选压缩最多、提取中等、综合最少。用各阶段耗时来估整篇综述的预算；子问题也顺便检验你的纳入标准是否够清晰。

完成后检查

提取表里每一格都能对应到 PDF 里的句子或表格——抽 20% 核对。
你和 AI 在筛选阶段的分歧都有记录，不是被悄悄盖过去。
综合段落里没有任何编造引用——每个数字 ID 都能在下载文件夹里找到对应论文。
效应量要么带置信区间、要么明确写”未报告”，绝不只给一个孤零零的数字。
披露日志覆盖了每一个 AI 步骤的工具、版本、阶段和 prompt（PRISMA-trAIce 的最低要求）。
综合段落要有形状：已确立、存在争议、缺口。如果整篇都”已确立”，那是你在给这个领域戴高帽。

怎么复用这套流程

把纳入标准、提取列、筛选 prompt 存成 review_template.md。换问题、换检索式，骨架不变。
维护一份模型校准日志：哪个模型在哪个领域抽效应量准、命中率多少。综述越多，这份日志越值钱。
保留筛选阶段的分歧对账记录。审稿人问”模糊样本怎么处理”时，要的就是这份证据。

建议的操作流程

PICO 问题 → 检索式 → 数据库结果 → 去重 → AI 第二评审筛选 → 对账并记录 → 下载全文 → 结构化提取 → 抽 20% 核对 → 聚类综合 → 用数字 ID 引用 → 引用核查 → PRISMA-trAIce 披露。AI 辅助下 100 篇综述大概一周，线性读需要三周。

容易踩的坑

让 AI”找相关论文”——它替代不了你的数据库检索，会编引用。
跳过提取阶段的抽查——自信的错误会进表，并一路活到 meta 分析。
把 AI 筛选当唯一把关人。它敏感度高、精确度低：很会”不漏论文”，却很不擅长”自信地排除论文”。
让 AI 自己聚类——它会按表面话题分，不会按机制分。
筛选阶段把 UNCLEAR 当 EXCLUDE 处理——你会丢掉最有意思的边界论文。
长论文用短上下文模型——后半段被压缩成总结。
没记 prompt 版本和模型版本。PRISMA-trAIce 和审稿人都会问。

FAQ

期刊会接受 AI 辅助综述吗？: 多数允许筛选和提取使用 AI，但要披露；少数允许 AI 生成的散文未经修改使用。截至 2026 年 6 月，预期的披露格式是 PRISMA-trAIce 清单（14 项）——记下工具、版本、阶段和 prompt。同时也要查具体期刊的作者指南。
让 AI 单独做筛选安全吗？: 不安全。2025 年基于 Cochrane 语料的测试显示 LLM 敏感度接近 100% 但精确度低，而 Cochrane 的明确立场是：现有证据不支持没有人工监督的生成式 AI。把它当第二评审用。
提取用哪个模型？: 优先长上下文。微妙领域选 Claude Sonnet 4.6 或 Opus 4.7；超长 PDF 选 Gemini 3.1 Pro。截至 2026 年 6 月，它们都提供 100 万 token 窗口。
每批筛多少篇摘要？: 20-50 条。超过 50 条模型会开始把标准平均化。
非英语论文怎么办？: 筛选阶段 AI 翻译可用，但提取阶段风险高。纳入的非英语论文，方法部分请找人工翻译。
要不要配 Rayyan 或 Covidence？: 要，跟 LLM 一起用。它们装着聊天窗口给不了的审计链和 PRISMA 流程图。Rayyan 有免费档（3 个综述）；Covidence（约 340 美元/年）是 Cochrane 协议的标准工具。

一句话总结

这篇讲什么

这篇适合谁看

什么时候适合用

先选好工具

选模型

开始前准备

具体步骤

第一次实操怎么跑

完成后检查

怎么复用这套流程

建议的操作流程

容易踩的坑

FAQ

相关阅读

相关文章

AI 竞品调研实操：30 分钟扫 5 家

AI 历史档案研究：原始资料优先的工作流

AI 市场规模估算实操：自上而下 + 自下而上 TAM/SAM/SOM

怎么核查 AI 引用与来源：一套 4 趟核验工作流

AI 事实核验工作流：3 分钟核一条主张

AI 行业研究工作流：Deep Research 端到端