1,000 页的 wiki 大概要多久？

一个人专做的话，导出加分流约 2-3 天，合并约 1 周。第二次清理快得多，因为分流模板可以复用。

AI 能直接删页吗？

删除保持人工。模型在分流表里提议 `delete`，由人确认并归档。没有让它硬删的安全办法。

很小。按 Claude Sonnet 4.6 每百万输入 token $3 算，读完整份 1,000 页导出（远不到 1M token）也就几美元；就算反复重跑，整个项目也在个位数美元。

能不能干脆只用 Notion AI Q&A、不清理？

不行。Q&A 检索答案，但它继承页面里的一切乱象——三篇互相矛盾的入职文档会产出三个互相矛盾的答案。先清理，Q&A 才真正好用。

为什么按 20-50 页分批、而不是整份导出？

长上下文召回在聚焦的小批上更准，全部拼在一起会让回引文件路径变得不可靠。分批还能让团队并行处理。

AI 工具教程

AI 知识库清理：从 Notion 坟场到可搜 Wiki

8 步 AI 工作流清理庞杂的 Notion / Confluence / Google Sites 知识库：导出、批量去重、分流、合并 canonical、归档、打标、重建索引。2026 年 6 月核实。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

团队 wiki 烂掉的方式是可预测的：三个版本的入职文档、一份 2022 年没人敢删的部署指南、一个搜出五篇互相矛盾页面的搜索框。这是一套 8 步工作流，用长上下文模型（Claude Sonnet 4.6 或 GPT-5.5）干分组、去重、合并这些苦活，而每一个不可逆的决定（删除、发布）都留在人手里。1,000 页的 wiki 一个人专做，大概分流 2-3 天、合并 1 周。AI 成本很小：按 Sonnet 4.6 每百万输入 token $3 算，把 1,000 页导出从头读一遍也就几美元。

这篇适合谁看

刚接手一份 500-2,000 页 Notion、Confluence 或 Google Sites wiki、而大家已经不再信任它的运营负责人、知识管理、团队 lead。如果”这页还是当前版本吗”每天在 Slack 被问，这篇就是给你的。

为什么用 AI，以及它在哪停手

清理里有两件事对人来说枯燥、对模型来说轻松：（1）读完每一页找出语义重复；（2）起草一份带来源标注的合并”canonical”文档。1M token 上下文窗口——Claude Opus 4.7、Sonnet 4.6 和 Gemini 3.1 Pro 都是标准配置——一次能塞进约 1,500 页文本，所以模型是真在对比页面，而不是瞎猜。（ChatGPT Plus 应用内窗口只有约 320 页；完整 1M 窗口只在 $200 的 Pro 套餐里，所以大批量场景下 Claude 或 Gemini 更省钱。）

AI 绝对不能做的：删页、裁决来源之间的事实冲突、发布。这些都人工。模型提议，你定。

具体步骤

1. 结构化导出

先做完整的纯文本导出，AI 才有得吃。

Notion（2026 年初路径变了）：Settings → Workspace → General → Export all workspace content → 格式选 Markdown & CSV → 打开 Include subpages 和 Include content。导出包是一个 ZIP，每页一个 .md 文件，每个数据库一个 .csv。整工作区导出最长要跑 30 小时，Notion 会邮件发你一个下载链接，链接7 天后过期，所以尽快下载。（来源：Notion 帮助中心 — 导出内容。）
Confluence：space 侧栏 → Space settings → Export → 选 HTML（最适合喂 AI）或 XML（完整存储格式，含评论）。注意两个坑：HTML 导出不含页面评论和 Team Calendars，而且你需要 Export Space 权限。（来源：Atlassian — 导出 space 内容。）
Google Sites：没有原生批量导出。从 sitemap 或 Search Console 导出 URL 列表，再 wget --mirror 抓公开页，或用社区的 gsites-exporter 脚本。

建个本地工作目录，让每一步都有归属：

kb_cleanup_2026_06/
├── raw/                # 导出的原始文件
├── batches/            # 步骤 2 分批后的合并文件
├── triage.csv          # 步骤 3 的分流表
├── canonical_drafts/   # 步骤 4 合并产物
└── taxonomy.md         # 步骤 6 的标签清单

2. 批量分组

把 raw/ 里的源文件每 20-50 篇拼成一个 batch，每篇单独一行加 --- FILE: <path> --- 前缀，方便模型把路径回引给你。开 Claude（Sonnet 4.6）或 GPT-5.5，发：

下面是知识库的一批 [N] 篇文档，用单独成行的
--- FILE: [path] ---
分隔。

[粘贴或上传这一批]

请用 Markdown 表格输出三件事：

表 1 — 按主题分组：
| group_name | 包含的 file 路径 | 核心议题（1 句） |

表 2 — 近似重复对（语义重复、文件不同）：
| file A | file B | 重复维度 | 重复程度（高/中/低） |

表 3 — 孤儿页（不属于任何组、无入链、最近 12 个月未更新）：
| file | 推测它原本想干什么 | 建议处置（合 / 归档 / 删 / 留） |

只用我给的 [path] 值，不要编造文件路径。

为什么是每批 20-50 篇而不是整库一次喂进去：超长无差别粘贴会让长上下文召回变差，而且你要把分组指令放在最末尾、文档之后——这个顺序能实测提升长输入的准确率。每 batch 跑一次，把行追加进 triage.csv。

3. 建分流表

逐行标 4 个字段。真正的事实源是这张表，不是 AI 对话窗：

page_path,group,status,confidence,notes
docs/onboarding_v1.md,onboarding,merge,high,与 v2/v3 合并
docs/onboarding_v2.md,onboarding,merge,high,canonical 基础
docs/legacy_aws_setup.md,infra-legacy,archive,high,2023 前 setup
docs/ceo_2022_strategy.md,founder-notes,archive,medium,留作历史
docs/test_page.md,orphan,delete,high,测试残留

status 只允许 4 个值：keep / merge / archive / delete。confidence 用 high / medium / low，low 的行在动手前先回到步骤 4 让 AI 再判一次。

4. 合并 canonical

对每个 status=merge 的组，把所有候选页全文粘进去，要一份带来源标注的合并稿：

下面是同一主题"[组核心议题]"下的 3-5 篇页面，我准备合并成一份 canonical 文档。

[粘贴所有候选页全文，每篇前加 --- FILE: [path] ---]

请输出一份 canonical 草稿：
1. 结构：what / why / how / examples / FAQ / related
2. 每段事实声明后加 [from: path] 标注，说明来自哪一篇
3. 候选页对同一事实有冲突时，列出冲突，不要替我选。
   在文档末尾建一个"需要人工裁决"区。
4. 候选页有过期信息（提到的工具/版本已停用）也列出并建议怎么改。

最后用 1 句话说明这份 canonical 比任何单篇候选强在哪。

存进 canonical_drafts/[topic].md。人工先处理掉”需要人工裁决”区，再发布——这正是模型最容易自信地答错的地方。

5. 归档，不要删

永远不要硬删。被缓存的 URL 和旧链接会变 404，伤 SEO、断书签。改成给页面加横幅再迁走：

> **此页已归档（YYYY-MM）。**
> 最新版本：[canonical 页标题](canonical-页链接)
> 保留此页是为了让旧链接和搜索结果不死链。请勿在此页继续编辑。

Notion 里：在顶部加上面这段 callout block，再把页面移到 Archive space。Confluence 里：在页面顶部插一个 Info macro，然后 Move 到 Archive space。把页面从导航里摘掉，让它不再出现在浏览里，但 URL 保持可访问。

6. AI 出 taxonomy

把活下来的 keep + merge 行喂回去，要一套扁平、不重叠的标签：

下面是 keep + merge 的页清单和它们的核心议题：

[粘贴 triage.csv 里 status=keep 和 merge 的行]

请给我一份扁平标签 taxonomy：
- 总数 15-30 个 tag（不要超过 30）
- 每个 tag 一句话定义"什么内容属于这里"
- 不允许重叠——每页最多匹配 3 个 tag，别全占
- 格式：tag-slug | 一句话定义 | 例子页面 1-2 个

完成后给每页提议最多 3 个 tag，输出 CSV：page_path,suggested_tags

把 tag 写回知识库（Notion 的 Tags property、Confluence 的 label）。把上限钉在 30 个 tag——标签一旦超过这个数，它自己就成了新的搜索难题。

7. 重建首页 / 索引

把 taxonomy 和你的 top-20 流量页（Google Analytics、Notion 的页面分析、或 Confluence 的 “Popular” 报表）结合起来：

给我一份知识库新首页结构：
- 顶部："最常用 5 个入口"——选最高流量的 5 个 canonical 页
- 中部：按 taxonomy 的 tag 分 6-8 个区块，每区块列 3-5 个代表页
- 底部："最近 7 天新增 / 更新"自动列表

每条入口给一句话 description（最多 14 字），让新人不点进去就知道是干嘛的。

8. 加季度复扫定时器

清干净的 wiki 没人维护的话，大约半年又烂回去。在日历加一个每 90 天循环的事件（2026-09-04 KB 复扫），把 kb_cleanup_2026_06/ 路径贴进事件描述。下一轮直接复用同一套 batch prompt 和 triage 模板——第二次清理只花第一次的一小部分时间。

8 步速览

#	步骤	谁来做	产物
1	结构化导出	人	`raw/` 导出包
2	批量分组	AI	每批 3 张表
3	建分流表	人	`triage.csv`
4	合并 canonical	AI 起草，人裁决	`canonical_drafts/`
5	归档	人	加横幅、迁走的页
6	标签 taxonomy	AI 提议，人批准	`taxonomy.md`
7	重建索引	AI 起草，人编辑	新首页
8	季度复扫	人	日历循环事件

哪一步用哪个模型

任务	最佳选择（2026 年 6 月）	原因
一次读完 1,000 页 batch	Claude Sonnet 4.6 / Opus 4.7、Gemini 3.1 Pro	标准价就有 1M token 窗口
大批量读取最省钱	Gemini 3.1 Pro（每百万输入 $2）	三者里输入成本最低
起草合并 canonical	Claude Opus 4.7	带引用的结构化合成最强
在 Notion 页面里直接用	Notion AI Q&A	只能检索、不会重构——清理后用，别用它清理

Notion 自带的 AI Q&A 是检索层，不是清理工具：它能回答你页面里的问题，但不会去重或合并。先把清理做完，再让 Q&A 在一份真正干净的 wiki 上发光。

容易踩的坑

没归档就删。 旧链接静默死掉、搜索排名下滑。改成加横幅归档。
跳过合并 canonical。 只打标、重建索引的话，重复还在，几周内又冒回搜索结果。
没有季度复扫。 坟场大约半年重新长出来。复扫是唯一让清理成果留得住的那一步。
让 AI 裁决冲突。 两个来源对某事实说法不一致时，模型常会自信地选错。强制要一个”需要人工裁决”区。

FAQ

1,000 页的 wiki 大概要多久？ 一个人专做的话，导出加分流约 2-3 天，合并约 1 周。第二次清理快得多，因为分流模板可以复用。
AI 能直接删页吗？ 删除保持人工。模型在分流表里提议 delete，由人确认并归档。没有让它硬删的安全办法。
AI 成本多少？ 很小。按 Claude Sonnet 4.6 每百万输入 token $3 算，读完整份 1,000 页导出（远不到 1M token）也就几美元；就算反复重跑，整个项目也在个位数美元。
能不能干脆只用 Notion AI Q&A、不清理？ 不行。Q&A 检索答案，但它继承页面里的一切乱象——三篇互相矛盾的入职文档会产出三个互相矛盾的答案。先清理，Q&A 才真正好用。
为什么按 20-50 页分批、而不是整份导出？ 长上下文召回在聚焦的小批上更准，全部拼在一起会让回引文件路径变得不可靠。分批还能让团队并行处理。

一句话总结

这篇适合谁看

为什么用 AI，以及它在哪停手

具体步骤

1. 结构化导出

2. 批量分组

3. 建分流表

4. 合并 canonical

5. 归档，不要删

6. AI 出 taxonomy

7. 重建首页 / 索引

8. 加季度复扫定时器

8 步速览

哪一步用哪个模型

容易踩的坑

FAQ

相关阅读

相关文章

AI 1on1 会前准备实操：经理与下属两侧通用

AI 季度 OKR 规划实操：不跑偏

AI 个人 OKR 实操：能坚持下来的季度目标

用 AI 调 Slack 消息语气：直接但不刺人

AI 周计划工作流：把混乱日历变成能扛住的一周

AI 邮件分流教程：15 分钟收件箱清零