AI 知识库清理工作流:从 Notion 坟场到可搜 Wiki

5 阶段 AI 工作流清理庞杂的 Notion / Confluence / Google Sites 知识库——去重、打标、归档、互链、重建索引。

这篇讲什么

5 阶段 AI 工作流清理庞杂的 Notion / Confluence / Google Sites 知识库——去重、打标、归档、互链、重建索引。

本文涉及的工具 / 概念:

  • Notion: 把文档、笔记、数据库和项目管理放在一起的协作工作区。

这篇适合谁看

运营、知识管理、团队 lead——接手一份 500-2000 页大家都不再信的 wiki。

什么时候适合用

搜出 5 篇互相矛盾、新人找不到东西、“这还是当前版本吗”每天被问时。

具体步骤

  1. 结构化导出。先做完整导出,AI 才有得吃。

    • Notion:左下角 Settings & membersSettingsExport all workspace content → 格式选 Markdown & CSV → 勾 Include subpagesInclude content。导出包是一个 ZIP,每页一个 .md 文件。
    • Confluence:space 右上角 ••• → Export space → 选 HTMLXML(HTML 更适合喂 AI),勾 Include attachments
    • Google Sites:当前没原生批量导出,用 gsites-exporter 或 Site Search 把 URL 列表导出后用 wget --mirror 抓页。

    导出后建本地目录:

    kb_cleanup_2026_05_21/
    ├── raw/                # 导出的原始文件
    ├── batches/            # 步骤 2 分批后的合并文件
    ├── triage.csv          # 步骤 3 的分流表
    ├── canonical_drafts/   # 步骤 4 合并产物
    └── taxonomy.md         # 步骤 6 的标签清单
  2. 批量分组。把 raw/ 里的 md 文件每 20-50 篇合成一个 batch(每篇前加 --- FILE: <path> --- 分隔),然后开 Claude / ChatGPT 长上下文模型(Claude Sonnet 4.6+ 或 GPT-5.5-128k+),发:

    下面是知识库的一批 <N> 篇文档,用 `--- FILE: <path> ---` 分隔。
    
    <粘贴或上传这一批>
    
    请输出三件事,用 Markdown 表格:
    
    表 1 - 按主题分组:
    | 组名 | 包含的 file 路径 | 组的核心议题(1 句) |
    
    表 2 - 近似重复对(语义重复但文件不同):
    | file A | file B | 重复维度 | 重复程度(高/中/低) |
    
    表 3 - 孤儿页(不属于任何组、没和其他页互链、最近 12 个月未更新的页):
    | file | 推测它原本想干什么 | 建议处置(合 / 归档 / 删 / 留) |
    
    不要 hallucinate 文件路径,只用我给你的 `<path>` 值。

    每 batch 跑一次,把表格汇总到 triage.csv

  3. 建分流表。在 triage.csv 里逐行标 4 个字段:

    page_path,group,status,confidence,notes
    docs/onboarding_v1.md,onboarding,merge,high,与 v2/v3 合并
    docs/onboarding_v2.md,onboarding,merge,high,canonical 基础
    docs/legacy_aws_setup.md,infra-legacy,archive,high,2023 前 setup
    docs/ceo_2022_strategy.md,founder-notes,archive,medium,留作历史
    docs/test_page.md,orphan,delete,high,测试残留

    status 只允许 4 个值:keep / merge / archive / deleteconfidence 用 high/medium/low,low 的留给步骤 4 让 AI 再判一次。

  4. 合并 canonical。对每个 status=merge 的组:

    下面是同一主题"<组核心议题>"下的 3-5 篇页面,我准备把它们合并成一份 canonical 文档。
    
    <粘贴所有候选页全文,每篇前加 --- FILE: <path> --->
    
    请输出一份 canonical 草稿:
    1. 结构:what / why / how / examples / FAQ / related
    2. 每段事实声明后必须有 [from: <path>] 标注,说明这个事实来自哪一篇
    3. 候选页之间冲突时(同一事实不同说法),列出冲突,**不要替我选**——在文档末尾建一个 "需要人工裁决" 区
    4. 候选页有过期信息(提到的工具/版本已停用)也列出,建议怎么改
    
    写完后用 1 句话告诉我这份 canonical 比任何单篇候选页强在哪里。

    产物存进 canonical_drafts/<topic>.md。人工过一遍”需要人工裁决”区,再发布到知识库。

  5. 归档(不要删)。在原位置不动,加横幅,并迁到 /archive

    > **此页已归档(YYYY-MM)。**
    > 最新版本:[<canonical 页标题>](<canonical 页链接>)
    > 保留此页是为了让旧链接 / 搜索结果不死链。请勿在此页继续编辑。

    Notion:把原页移到 Archive workspace,并在顶部 callout block 贴上面这段。Confluence:在原页插入 Info macro,然后 Move 到 Archive space。别删 —— Google 已经收录的旧 URL 会变 404,影响 SEO。

  6. AI 出 taxonomy

    下面是过去步骤产出的"留 + 合并"后的页清单和它们的核心议题:
    
    <粘贴 triage.csv 里 status=keep 和 merge 的行>
    
    请给我一份扁平标签 taxonomy:
    - 总数 15-30 个 tag(不要超过 30)
    - 每个 tag 用一句话定义"什么内容属于这个 tag"
    - 不允许重叠(每页应该匹配到 ≤3 个 tag,不能 10 个 tag 全占)
    - 输出格式:`tag-slug | 一句话定义 | 例子页面 1-2 个`
    
    完成后给每篇页提议 ≤3 个 tag,输出 CSV:`page_path,suggested_tags`。

    把建议 tag 写回知识库(Notion property Tags、Confluence label)。

  7. 重建首页 / 索引。基于步骤 6 的 taxonomy 和 20 个最高流量页(去看 GA / Notion analytics / Confluence 的 “Popular” 报表):

    给我一份知识库新首页的结构,要求:
    - 顶部:"最常用 5 个入口"——选最高流量的 5 个 canonical 页
    - 中部:按 taxonomy 的 tag 分 6-8 个区块,每个区块列 3-5 个代表页
    - 底部:"最近 7 天新增 / 更新"自动列表
    
    每条入口都给一句话 description(≤14 字),让新人不点进去就知道是干嘛的。
  8. 加季度复扫定时器。在你的日历加循环事件 2026-08-21 KB 复扫(每 90 天一次),事件描述里贴 kb_cleanup_2026_05_21/ 路径,下次直接复用同一套 batch + prompt + triage 模板。

建议的操作流程

导出 → 批量分组 → 分流表 → 合并成 canonical → 归档过时 → 标签 taxonomy → 重建索引 → 季度复扫。

容易踩的坑

  • 没归档就删——旧链接静默死掉
  • 跳合并 canonical——重复又回来
  • 没季度复扫——半年再坟场

FAQ

  • 1000 页大概多久?: 一个人专做的话,分流 2-3 天、合并 1 周。
  • AI 能直接删页吗?: 别——删除人工。AI 提议、你定。

相关阅读

标签: #教程 #效率 #知识库 #清理