怎么用 AI 检查引用与来源(不用变成抄袭侦探)

4 趟 AI 引用核验工作流——发表前抓出虚构来源、错引、来源弱的引用。

大多数 AI 辅助稿件至少带一条坏引用:URL 真但不说你引的那句、像那么回事的论文其实不存在、引语其实是从二手博客抄的、原文被改过。这套流程给编辑、研究者、内容运营一份四趟检查清单——发表前把三类失败模式都抓掉。首跑约每条 5 分钟,有模板后约 1 分钟。

这篇讲什么

4 趟 AI 引用核验——存在、准确、来源链、时效——逐条扫稿。产出是一份干净的”来源台账”,跟终稿一起发;再加一份”需要重做或删除”清单。重点不是抄袭,是抓 AI 辅助研究偷偷骗你的四种方式。

这篇适合谁看

编辑、研究者、学生、内容运营、政策分析——任何要发带引用的作品却没亲自核过的人。每条引用你都读过原文,那不用这套。AI 起草了一部分、合作者甩你一份”信我就行”的 deck——你就该用。

什么时候适合用

发表 AI 辅助研究、journal club 笔记、博客、白皮书、brief 前。任何引了你不能亲自背书的来源的 deck / memo 在转发前也用。一条虚构引用上线的代价,通常比整个审核还高。

开始前准备

  • 把稿件转成纯文本或 Markdown。PDF 把脚注藏起来、粘贴会断。
  • 至少备两个工具:聊天模型(Claude、GPT)做解析;带联网检索的(Perplexity、Gemini 联网、GPT 带 browsing)做 URL 实查。
  • 先定标尺:“所有引用必须 primary 除非显式标注” 比 “所有引用必须存在” 严得多。挑一个,坚持。
  • 首次预留 30-90 分钟。后续同类稿件快得多。

具体步骤

  1. 建台账。 把全文粘进聊天模型:“抽全部引用成表,列:claim(一句话)、source name、URL、页 / 节、claim type(statistic / quote / definition / attribution)。“存表。
  2. 第 1 趟 - 存在。 把引用表粘进 Perplexity 或带检索的模型:“每行确认 URL 可解析、来源存在。标出 404、跳到首页、看着像虚构的项。每条贴一个搜索证据。”
  3. 第 2 趟 - 准确。 每个存在的来源:“抓页,引用支持这条 claim 的具体段。如果原文没有,明确说没有。不要 paraphrase,引原文。“逐字对比草稿那句和这段引文。
  4. 第 3 趟 - 来源链。 “这个来源对这条 claim 是 primary(原始数据、研究、第一手)、secondary(对 primary 的分析)还是 tertiary(对 secondary 的概述)?若非 primary,找出它最终指向的 primary 源。“来源链弱的进重做候选。
  5. 第 4 趟 - 时效。 “这条被引 claim 自来源发表以来有没有更新、反驳、撤稿、被替代?搜同作者或同主题过去 12 个月的新发表。”
  6. 打分决断。 4 趟里挂 2 趟:重做或删——不要打补丁。打补丁通常变成换一条略弱一点的然后照发。
  7. 出台账。 清洗后的引用表存成”来源台账”,跟终稿一起发。在内容站发表的话,从文末链过去。

Prompt 模板

第 1 趟:"以下是稿件里的 12 条引用。每条确认 URL 是否可解析、
来源是否真实存在。返回:行号 | 可解析 Y/N | 来源存在 Y/N |
一句话证据。不要猜。不确定就写 UNSURE 并解释。"
第 2 趟:"对每条来源,抓页并引用支持 claim 的具体原文。
若该 URL 上没有这样的段落,返回 NO MATCH 并引用你找到的最接近的。
每条最多 30 词。"

第一次实操怎么跑

  1. 挑一篇短稿,里面 5-8 条引用。
  2. 每条都跑完 4 趟,连你自己写的也跑。目的是体会每一趟抓什么、要多久。
  3. 数结果:第 1 趟挂几条?第 2 趟挂几条?通常你会发现 Pass 2(准确)才是最常挂的,不是 Pass 1(存在)。
  4. 计时。第一次慢,第三次就快。

完成后检查

  • AI 是真的引了原文还是 paraphrase 了?paraphrase 说明它没真抓页——换个有 browsing 的模型重跑。
  • 被标”虚构”的来源真是虚构,还是只是 paywall 进不去?paywall 是真但不可核验,单独标。
  • 你草稿里有引语原封不动通过 Pass 2 吗?通过了就安全。你为流畅改过的引语可能改了原意——还原。

怎么复用这套流程

  • 4 条 prompt 存成一个文件,只留一个变量:引用表。
  • 给每个发表渠道写一份风格说明:“statistics 必须 primary,definition 可以 secondary”。把这条嵌进 Pass 3。
  • 任何重印、合集、转载前重跑一次。来源会腐烂——链接死、论文撤稿、统计修订。

建议的操作流程

列全引用 → 存在 → 准确 → 来源链 → 时效 → 失败项重做 → 来源台账随稿发。

容易踩的坑

  • 以为”AI 写了引用 = 引用存在”。LLM 经常发明听着像真的论文;存在性正是 Pass 1 抓的。
  • 跳过准确——URL 真但不说草稿那句。这是最常见的失败,最容易蒙混过去。
  • 把 secondary 当 primary,因为 secondary 自己这么说。secondary 可能已经把 primary 改了。
  • 用同一个搜索结果里”略弱一点”的来源去补失败引用。如果你能找到的最强来源都很弱,问题在主张本身,不在来源。
  • 不查 statistics 的时效。“67% 的 X” 在 2019 年,到 2026 年常常变成 51%,读者会觉得文章过时或错。
  • 把两万字稿件粘进一个 prompt。按节切;长上下文会拉低引用抽取精度。

FAQ

  • 抓得到 AI 虚构来源吗?: 抓得到——Pass 1(存在)专抓虚构。大多数 LLM 幻觉死在这步;少数会编出”URL 真但跳到不相关页”,由 Pass 2 抓。
  • 多久?: 首次每条 ~5 分钟;有 Prompt 模板 + 按 domain 批处理后 ~1 分钟。
  • 哪个模型适合哪趟?: 存在:Perplexity 或任何带检索的模型。准确:带 browsing 的模型(Claude 带 web tool、GPT browsing、Gemini)。来源链:任何推理模型,把内容粘进去。时效:再用带检索的。
  • paywall 来源怎么办?: 台账里标”真实但不可核验”。让 AI 用 abstract、preprint、机构概述代核。完全不可读的 primary 源,别 ship。
  • 能脚本化吗?: 只有存在那趟能干净自动化。准确和来源链需要人在回路里——失败模式太微妙,不能全托管。
  • 同一来源被引 10 次怎么办?: 按”来源 - 段落”对核,不是按”来源”核。你信它支持 claim A,不代表它支持 claim B。

相关阅读

标签: #教程 #研究 #事实核验 #引用