这篇讲什么
5 阶段 AI 工作流清理庞杂的 Notion / Confluence / Google Sites 知识库——去重、打标、归档、互链、重建索引。
本文涉及的工具 / 概念:
- Notion: 把文档、笔记、数据库和项目管理放在一起的协作工作区。
这篇适合谁看
运营、知识管理、团队 lead——接手一份 500-2000 页大家都不再信的 wiki。
什么时候适合用
搜出 5 篇互相矛盾、新人找不到东西、“这还是当前版本吗”每天被问时。
具体步骤
-
结构化导出。先做完整导出,AI 才有得吃。
- Notion:左下角
Settings & members→Settings→Export all workspace content→ 格式选Markdown & CSV→ 勾Include subpages和Include content。导出包是一个 ZIP,每页一个.md文件。 - Confluence:space 右上角
••• → Export space→ 选HTML或XML(HTML 更适合喂 AI),勾Include attachments。 - Google Sites:当前没原生批量导出,用
gsites-exporter或 Site Search 把 URL 列表导出后用wget --mirror抓页。
导出后建本地目录:
kb_cleanup_2026_05_21/ ├── raw/ # 导出的原始文件 ├── batches/ # 步骤 2 分批后的合并文件 ├── triage.csv # 步骤 3 的分流表 ├── canonical_drafts/ # 步骤 4 合并产物 └── taxonomy.md # 步骤 6 的标签清单 - Notion:左下角
-
批量分组。把
raw/里的 md 文件每 20-50 篇合成一个 batch(每篇前加--- FILE: <path> ---分隔),然后开 Claude / ChatGPT 长上下文模型(Claude Sonnet 4.6+ 或 GPT-5.5-128k+),发:下面是知识库的一批 <N> 篇文档,用 `--- FILE: <path> ---` 分隔。 <粘贴或上传这一批> 请输出三件事,用 Markdown 表格: 表 1 - 按主题分组: | 组名 | 包含的 file 路径 | 组的核心议题(1 句) | 表 2 - 近似重复对(语义重复但文件不同): | file A | file B | 重复维度 | 重复程度(高/中/低) | 表 3 - 孤儿页(不属于任何组、没和其他页互链、最近 12 个月未更新的页): | file | 推测它原本想干什么 | 建议处置(合 / 归档 / 删 / 留) | 不要 hallucinate 文件路径,只用我给你的 `<path>` 值。每 batch 跑一次,把表格汇总到
triage.csv。 -
建分流表。在
triage.csv里逐行标 4 个字段:page_path,group,status,confidence,notes docs/onboarding_v1.md,onboarding,merge,high,与 v2/v3 合并 docs/onboarding_v2.md,onboarding,merge,high,canonical 基础 docs/legacy_aws_setup.md,infra-legacy,archive,high,2023 前 setup docs/ceo_2022_strategy.md,founder-notes,archive,medium,留作历史 docs/test_page.md,orphan,delete,high,测试残留status只允许 4 个值:keep/merge/archive/delete。confidence用 high/medium/low,low 的留给步骤 4 让 AI 再判一次。 -
合并 canonical。对每个
status=merge的组:下面是同一主题"<组核心议题>"下的 3-5 篇页面,我准备把它们合并成一份 canonical 文档。 <粘贴所有候选页全文,每篇前加 --- FILE: <path> ---> 请输出一份 canonical 草稿: 1. 结构:what / why / how / examples / FAQ / related 2. 每段事实声明后必须有 [from: <path>] 标注,说明这个事实来自哪一篇 3. 候选页之间冲突时(同一事实不同说法),列出冲突,**不要替我选**——在文档末尾建一个 "需要人工裁决" 区 4. 候选页有过期信息(提到的工具/版本已停用)也列出,建议怎么改 写完后用 1 句话告诉我这份 canonical 比任何单篇候选页强在哪里。产物存进
canonical_drafts/<topic>.md。人工过一遍”需要人工裁决”区,再发布到知识库。 -
归档(不要删)。在原位置不动,加横幅,并迁到
/archive:> **此页已归档(YYYY-MM)。** > 最新版本:[<canonical 页标题>](<canonical 页链接>) > 保留此页是为了让旧链接 / 搜索结果不死链。请勿在此页继续编辑。Notion:把原页移到
Archiveworkspace,并在顶部 callout block 贴上面这段。Confluence:在原页插入Infomacro,然后 Move 到Archivespace。别删 —— Google 已经收录的旧 URL 会变 404,影响 SEO。 -
AI 出 taxonomy:
下面是过去步骤产出的"留 + 合并"后的页清单和它们的核心议题: <粘贴 triage.csv 里 status=keep 和 merge 的行> 请给我一份扁平标签 taxonomy: - 总数 15-30 个 tag(不要超过 30) - 每个 tag 用一句话定义"什么内容属于这个 tag" - 不允许重叠(每页应该匹配到 ≤3 个 tag,不能 10 个 tag 全占) - 输出格式:`tag-slug | 一句话定义 | 例子页面 1-2 个` 完成后给每篇页提议 ≤3 个 tag,输出 CSV:`page_path,suggested_tags`。把建议 tag 写回知识库(Notion property
Tags、Confluence label)。 -
重建首页 / 索引。基于步骤 6 的 taxonomy 和 20 个最高流量页(去看 GA / Notion analytics / Confluence 的 “Popular” 报表):
给我一份知识库新首页的结构,要求: - 顶部:"最常用 5 个入口"——选最高流量的 5 个 canonical 页 - 中部:按 taxonomy 的 tag 分 6-8 个区块,每个区块列 3-5 个代表页 - 底部:"最近 7 天新增 / 更新"自动列表 每条入口都给一句话 description(≤14 字),让新人不点进去就知道是干嘛的。 -
加季度复扫定时器。在你的日历加循环事件
2026-08-21 KB 复扫(每 90 天一次),事件描述里贴kb_cleanup_2026_05_21/路径,下次直接复用同一套 batch + prompt + triage 模板。
建议的操作流程
导出 → 批量分组 → 分流表 → 合并成 canonical → 归档过时 → 标签 taxonomy → 重建索引 → 季度复扫。
容易踩的坑
- 没归档就删——旧链接静默死掉
- 跳合并 canonical——重复又回来
- 没季度复扫——半年再坟场
FAQ
- 1000 页大概多久?: 一个人专做的话,分流 2-3 天、合并 1 周。
- AI 能直接删页吗?: 别——删除人工。AI 提议、你定。