用公式还是 AI？

确定性规则用公式（或 Power Query）；模糊活用 AI。两者结合：AI 找模式，再用它生成的公式或 Power Query 脚本确定性地放大。

行数上限是多少？

Excel 清理数据建议在 5 万行 / 100 列以内效果最好。ChatGPT 和 Gemini 都能从容处理约 5 万行的文件；更大或需要反复迭代时，让 AI 出脚本、在本地跑。

姓名、邮箱、ID 要谨慎。敏感字段先 hash 或脱敏再贴，并优先用把数据留在你账号内的工具（Excel 清理数据、Gemini in Sheets）。

AI 会按相似度去重吗？

会，但相似度规则要核。`John Smith` 和 `J. Smith` 可能是同一人也可能不是——让 AI 把近似匹配标出来，而不是自动合并。

为什么清洗后这列还是不对劲？

清理数据是为英文调校的；多语言或带变音符的列可能要改用对话模型或 Power Query。

AI 场景化应用

用 AI 清洗 Excel 脏数据：大小写、空格、错字、去重

用一段 Prompt 把脏文本列清干净——大小写归一、去空格、修错字、去重——并对比 ChatGPT、Copilot 清理数据、Gemini 各自的取舍，配先样本后放大的稳妥流程（截至 2026 年 6 月）。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

先贴 10-20 行脏数据样本，明确告诉 AI 允许做哪些变换，并要求它产出 diff 日志和 review 队列。核对样本无误，再放大到全列。一次性清洗就用 ChatGPT 的文件分析（Plus，2026 年 6 月 $20/月），它会对你的 .xlsx 写并运行 pandas 代码；想在文件内做可复用的清理，用 Excel 的清理数据（Clean Data）（Microsoft 365 Copilot），它能一键预览卡片修空格、大小写、文本存成数字的问题——但它不会删重复行、也不会拆列。永远别让 AI 悄悄改意思，要逼它标出来。

任务场景

你拿到一份导出——客户名、地址、标签、商品名——状态”非常生猛”：大小写混乱、首部空格、错字，John Smith 和 john smith 并排。你需要一个干净的列来筛选、做 Join 或出报表。手动 regex / 查找替换太慢，AI 一段 Prompt 就能搞定——前提是先样本、先核、再放大。

哪些适合让 AI 做，哪些不要

AI 在模糊归一、去重、明显错字修复上很强；但在”悄悄改了意思”上既差又危险：它可能把 Sun “修”成 Sunday、co 推断成 Colorado、Apple 写成 Apple Inc.——有时对，有时灾难。其实 ChatGPT 的文件分析是在沙箱里跑 Python（pandas），所以它像个初级数据分析师：快、死板，偶尔过于自信。务必先样本验证，并讲清允许做哪些变换。

选对工具（2026 年 6 月）

工具	最适合	限制 / 价格	能去重？	能拆列？
ChatGPT 文件分析（Plus）	一次性清洗导出文件，pandas 灵活度最高	$20/月；单文件约 50 MB；沙箱跑 Python	能，精确 + 近似	能
Excel 清理数据（M365 Copilot）	信任的就地修复，不用重新上传	需 M365 + Copilot 授权；建议 ≤ 5 万行 / 100 列；英文效果最好	不能（用删除重复项 / Power Query）	不能（用分列）
Gemini in Google Sheets	留在表内的清洗、多步编辑	上传表格需 Google AI Pro（$19.99/月）；约 5 万行从容	能，靠 Prompt	能
Claude（Pro）	需要清晰审计链的反复、谨慎清洗	$20/月；单文件 30 MB；diff 日志可靠	能	能

Excel 的清理数据在”数据”选项卡里：它扫描表格，逐项弹出建议卡片，处理空格（Microsoft Excel → Microsoft Excel）、大小写（EXCEL → Excel）、以及”存成文本的数字”。但它不删重复行、也不拆合并字段——那些得用删除重复项、分列或 Power Query。凡是模糊的活（错字、“J. Smith 和 John Smith 是不是同一人？”），带文件上传的对话模型更能胜任。

需要给 AI 的输入

10-20 行脏数据样本
期望输出格式（lowercase / Title Case / 精确的 姓名）
不允许改的事（“不要展开缩写”、“不要推断国家”）
一份”理想输出”样本，让 AI 知道什么算成功
要对照的参考列表（受控词表 / 城市清单）
不确定行：是标出来还是给最佳猜测

可直接复制的 Prompt

清洗这列脏文本。
期望输出：[格式 + 示例]
允许变换：[大小写归一 / 去空格 / 修明显错字 / 去重]
不允许：[展开缩写 / 推断缺字段 / 合并人名 / 改变意思]
参考列表（如适用，必须匹配）：[list]
不确定行：[标 [REVIEW: 原因] 或最佳猜测]

样本（10-20 行）：
"""
[paste]
"""

理想输出示例：
"""
[贴 3-5 行干净的]
"""

请输出：
1. 清洗后的样本，与输入行对齐
2. diff 日志——你改的每一行：原值 / 新值 / 原因
3. review 队列——不确定的行
4. 这段 Prompt 是否能安全放大到全列

不确信时不要硬套模式，标出来。

1000+ 行的活，再加一句：“样本确认后，给我精确的变换规则（一段 Power Query 脚本、一段 pandas 代码，或公式），让我用确定性方式放大，而不是再 prompt 一次。“

为什么 diff 日志最关键

最有用的输出就是 diff 日志（原值 / 新值 / 原因）。没有它，错误会无声传播——列看起来很干净，实际上有三行悄悄改了意思。review 队列是它的搭档：被标的行不是失败，是稳妥路径。对真实数据来说，一个”零不确定行”的 AI 不是完美，是过于自信。

怎么判断结果能不能直接用

同一段 Prompt 在同一样本上跑两次，输出应当一致。不一致说明规则没说清。
在 diff 日志里抽 5 行，回到原始输入核对。
确认 review 队列存在，且被标的行确实是有歧义的。
参考列表是精确匹配——不能有”近似匹配未标记”溜过去。
没有任何一行”意思”被改：sun → Sun 只是改大小写；Sun → Sunday 是改意思，绝不能悄悄发生。

容易踩的坑

不取样直接把全列丢进去——错了等于遍地都是才发现。
没给”理想输出”样本——AI 只能猜你想要什么。
让 AI 展开缩写——USA 变 United States of America 会破坏下游 Join。
没 diff 日志——更正悄悄发生。
把 review 队列当成缺陷，而不是一项功能。
在 Excel 清理数据里以为它帮你删了重复行——它不会。要用删除重复项或 Power Query。

FAQ

用公式还是 AI？ 确定性规则用公式（或 Power Query）；模糊活用 AI。两者结合：AI 找模式，再用它生成的公式或 Power Query 脚本确定性地放大。
行数上限是多少？ Excel 清理数据建议在 5 万行 / 100 列以内效果最好。ChatGPT 和 Gemini 都能从容处理约 5 万行的文件；更大或需要反复迭代时，让 AI 出脚本、在本地跑。
PII 怎么办？ 姓名、邮箱、ID 要谨慎。敏感字段先 hash 或脱敏再贴，并优先用把数据留在你账号内的工具（Excel 清理数据、Gemini in Sheets）。
AI 会按相似度去重吗？ 会，但相似度规则要核。John Smith 和 J. Smith 可能是同一人也可能不是——让 AI 把近似匹配标出来，而不是自动合并。
为什么清洗后这列还是不对劲？ 清理数据是为英文调校的；多语言或带变音符的列可能要改用对话模型或 Power Query。

一句话总结

任务场景

哪些适合让 AI 做，哪些不要

选对工具（2026 年 6 月）

需要给 AI 的输入

可直接复制的 Prompt

为什么 diff 日志最关键

怎么判断结果能不能直接用

容易踩的坑

FAQ

相关

相关文章

AI 周计划优先级反思：5 分钟搞定

AI 一次出 30 个内容选题：十分钟突破写作选题瓶颈

用 AI 抽取会议行动项：从转录拿到「负责人 / 任务 / 截止日期」清单

用 AI 起草拍板式会议议程：30 分钟出一个决策

用 AI 总结长篇政策文档

用 AI 出 PPT 大纲：一个主旨、十页结构、能直接讲