抓得到 AI 虚构来源吗？

抓得到——Pass 1 专抓虚构。大多数幻觉死在"存在"这步；少数会编出"URL 真但跳到不相关页"或拼接 DOI，由元数据核对和 Pass 2 抓。

首次每条约 5 分钟；存好模板、按 domain 批处理后降到约 1 分钟。

哪个模型最合适？

存在和时效：带检索的模型（Perplexity、Gemini 3.1 Pro、GPT-5.5 联网）。准确：真能抓页的 browsing 模型。来源链：把内容粘进去的任意推理模型。学术引用再加一道 Crossref DOI 核对。

paywall 来源怎么办？

台账里标"真实但不可核验"，用 abstract、preprint、机构概述代核。完全读不到 primary 源的主张，别发。

存在那趟能干净自动化——DOI 解析加 Retraction Watch 查询就是一次 Crossref API 调用。准确和来源链需要人在回路里，失败模式太微妙，不能全托管。

同一来源被引 10 次怎么办？

按"来源 - 段落"对核，不是按"来源"核。你信它支持 claim A，不代表它支持 claim B。

AI 工具教程

怎么核查 AI 引用与来源：一套 4 趟核验工作流

一套可复现的 4 趟工作流，逐条核验 AI 辅助稿件里的引用——发表前抓出虚构来源、错引、拼接来源（chimera reference）。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

2026 年 5 月一项发表在《柳叶刀》的研究发现：2026 年初每 277 篇学术论文里就有 1 篇至少带一条虚构引用——而 2023 年这个比例是每 2828 篇 1 条，三年涨了约十倍。法律界也在烂同一处：Damien Charlotin 维护的公开数据库已记录 1227 多起含 AI 虚构引用的法庭文件，每天还新增五到六起，罚款已经开到 8.6 万美元。根子在结构上。GhostCite 基准（2026 年 2 月）拿 37.5 万条引用、跑了 13 个前沿模型、覆盖 40 个领域，测出引用虚构率在 14.23% 到 94.93% 之间。哪怕开了联网检索，仍有 3%–13% 的 URL 是编出来的。

这是一套四趟工作流，专抓 AI 引用骗你的三种方式：来源根本不存在、来源存在但说的是别的、来源是真的但属于错误的证据层级。首跑大约每条 5 分钟，把 Prompt 存好后降到约 1 分钟。

一句话总结

AI 引用时既自信又错：视模型和领域不同，虚构率在 14%–95%（GhostCite，2026 年 2 月），开了检索仍有 3%–13% 的 URL 是假的。
每条引用跑四趟：存在（能解析吗）、准确（支持这条主张吗）、来源链（primary 还是 secondary）、时效（还成立吗）。
存在和时效用带检索的模型（Perplexity、Gemini 3.1 Pro、GPT-5.5 联网）；准确用带 browsing 的模型；来源链用任何推理模型即可。
学术来源把 DOI 拿去 Crossref（1.5 亿多条记录）核，再查 Retraction Watch——两件事 Crossref 一次 API 调用就能搞定。
四趟里挂 2 趟就重做，别打补丁。把”来源台账”随终稿一起发。

这篇适合谁、什么时候用

编辑、研究者、学生、内容运营、政策分析——任何要发带引用的作品、却没亲自读过那些来源的人。每条引用你都读过原文，那跳过这篇。AI 起草了带引用的部分，或者合作者甩你一份”信我就行”的 deck，就把四趟跑一遍。

发表 AI 辅助研究、journal club 笔记、博客、白皮书、依赖引用主张的 brief 之前用；任何引了你不能亲自背书的来源的 memo，转发前也用。一条虚构引用上线的代价，比整个审核流程还高。

开始前准备

把稿件转成纯文本或 Markdown。PDF 把脚注藏起来、一粘贴就断。
备两个工具：聊天模型（Claude Opus 4.7、GPT-5.5）做解析；带检索的模型（Perplexity、Gemini 3.1 Pro、GPT-5.5 联网）做 URL 实查。截至 2026 年 6 月，Perplexity 分免费 / Pro 每月 20 美元 / Max 200 美元；一个 Pro 席位足够覆盖大多数编辑核验工作。
先定标尺。“所有引用必须是 primary，除非显式标注”比”所有引用必须存在”严得多。挑一个，整篇坚持到底。
首次预留 30–90 分钟。后续同类稿件会快很多。

四趟核验

1. 建台账

把全文粘进聊天模型：“把全部引用抽成一张表，列：claim（一句话）、source name、URL 或 DOI、页 / 节、claim type（statistic / quote / definition / attribution）。“存下这张表——它既是工作底稿，清洗后又是要发布的来源台账。

长稿按节切。超过约 8000 字后，抽取精度会下降，模型会开始漏掉靠后的引用。

2. 第 1 趟 - 存在

把引用表粘进带检索的模型：“每行确认 URL 可解析、来源存在。标出 404、跳到首页、看着像虚构的项。每条贴一个搜索证据。”

学术来源这一步看 DOI。一个能解析的真 DOI，但元数据（标题、作者、年份）和引用对不上，就是 chimera reference（拼接引用）——从不同论文的零件拼出来的一条引用，是典型的 LLM 失败模式。把 DOI 拿到 Crossref（超过 1.5 亿条记录）解析，逐字段核对。Crossref 在同一次 API 响应里还会带出 Retraction Watch 的撤稿状态，所以撤稿来源在这一步顺手就抓到了。

3. 第 2 趟 - 准确

对每个存在的来源：“抓页，引用支持这条 claim 的具体原文。原文没有就明确说没有，并引你找到的最接近的一段。不要 paraphrase，引原文，最多 30 词。“逐字对比草稿那句和引文。

这趟最多人跳过，也最常挂。URL 是真的，但它从没说过草稿那句话。如果模型给的是 paraphrase 而不是引文，说明它没真抓页——明确打开 browsing 重跑。

4. 第 3 趟 - 来源链

“这个来源对这条 claim 是 primary（原始数据、研究、第一手）、secondary（对 primary 的分析）还是 tertiary（对 secondary 的概述）？若非 primary，找出它最终指向的 primary 源。“这里的陷阱是把 primary 改坏了的 secondary 源；来源链弱的进重做候选。

5. 第 4 趟 - 时效

“这条 claim 自来源发表以来有没有被更新、反驳、撤稿、替代？搜同作者或同主题过去 12 个月的新发表。“统计数字烂得最快：2019 年的”67% 的 X”，到 2026 年常常已是 51%，文章读起来就过时甚至错了。

6. 打分决断

任何挂 2 趟的引用：重做或删，别打补丁。打补丁通常变成从同一次搜索里换一条略弱一点的然后照发。把清洗后带结论的引用表存成来源台账，从文末链过去。

哪趟用哪个模型

趟次	推荐工具（2026 年 6 月）	为什么
存在	Perplexity、Gemini 3.1 Pro、GPT-5.5（开检索）	实时联网，每条带引证
存在（学术）	Crossref API + Retraction Watch	1.5 亿多 DOI；抓拼接引用与撤稿
准确	Claude（web tool）、GPT-5.5（browsing）、Gemini 3.1 Pro	必须真抓页并引原文
来源链	任意推理模型（Opus 4.7、GPT-5.5）	把内容粘进去即可，不用联网
时效	Perplexity、Gemini 3.1 Pro	搜更新或撤稿的新发表

Prompt 模板

第 1 趟（存在）："以下是稿件里的 12 条引用。每条确认 URL 或 DOI
能否解析到真实来源、来源是否真实存在。DOI 要确认标题 / 作者 / 年份匹配。
返回：行号 | 可解析 Y/N | 元数据匹配 Y/N | 一句话证据。
不要猜。不确定就写 UNSURE 并解释。"

第 2 趟（准确）："对每条来源，抓页并引用支持 claim 的具体原文。
若该 URL 上没有这样的段落，返回 NO MATCH 并引你找到的最接近的。
每条最多 30 词。不要 paraphrase。"

容易踩的坑

以为”AI 写了引用 = 引用存在”。模型经常发明听着像真的论文——这正是 Pass 1 抓的。
跳过准确趟。URL 真但不支持那句主张，这是最常见的失败，也最容易蒙混过去。
把 secondary 当 primary，因为 secondary 自己这么说。secondary 可能已经把 primary 改坏了。
用同一次搜索里”略弱一点”的来源补失败引用。如果你能找到的最强来源都很弱，问题在主张本身，不在来源。
跳过 DOI 元数据核对。能解析的 DOI 不等于已核验的引用——拼接引用解析得好好的，引的却是错误的论文。
把两万字稿件粘进一个 prompt。按节切；长上下文会拉低抽取精度。

FAQ

抓得到 AI 虚构来源吗？: 抓得到——Pass 1 专抓虚构。大多数幻觉死在”存在”这步；少数会编出”URL 真但跳到不相关页”或拼接 DOI，由元数据核对和 Pass 2 抓。
要多久？: 首次每条约 5 分钟；存好模板、按 domain 批处理后降到约 1 分钟。
哪个模型最合适？: 存在和时效：带检索的模型（Perplexity、Gemini 3.1 Pro、GPT-5.5 联网）。准确：真能抓页的 browsing 模型。来源链：把内容粘进去的任意推理模型。学术引用再加一道 Crossref DOI 核对。
paywall 来源怎么办？: 台账里标”真实但不可核验”，用 abstract、preprint、机构概述代核。完全读不到 primary 源的主张，别发。
能脚本化吗？: 存在那趟能干净自动化——DOI 解析加 Retraction Watch 查询就是一次 Crossref API 调用。准确和来源链需要人在回路里，失败模式太微妙，不能全托管。
同一来源被引 10 次怎么办？: 按”来源 - 段落”对核，不是按”来源”核。你信它支持 claim A，不代表它支持 claim B。

一句话总结

这篇适合谁、什么时候用

开始前准备

四趟核验

1. 建台账

2. 第 1 趟 - 存在

3. 第 2 趟 - 准确

4. 第 3 趟 - 来源链

5. 第 4 趟 - 时效

6. 打分决断

哪趟用哪个模型

Prompt 模板

容易踩的坑

FAQ

相关阅读

相关文章

AI 竞品调研实操：30 分钟扫 5 家

AI 历史档案研究：原始资料优先的工作流

AI 市场规模估算实操：自上而下 + 自下而上 TAM/SAM/SOM

AI 系统文献综述实操：不让模型乱编

AI 事实核验工作流：3 分钟核一条主张

AI 行业研究工作流：Deep Research 端到端