任务场景
你拿到一份导出——客户名、地址、标签、商品名——状态”非常生猛”:大小写混乱、首部空格、错字、“John Smith” 和 “john smith” 并排。你需要一个干净的列做筛选 / Join / 报表。手动 regex / 查找替换太慢;AI 一段 Prompt 就能搞定——前提是先样本、先核、再放大。
哪些情况适合让 AI 来做,哪些情况不要
AI 在模糊归一、去重、明显错字修复上很强。但它在”悄悄改了意思”上既差又危险:可能把 “Sun” “修” 成 “Sunday”、“co” 推断为 “Colorado”、“Apple” 写成 “Apple Inc.” ——有时对、有时灾难。一定要样本验证,并告诉 AI 允许做哪些变换。
需要给 AI 的输入信息
- 10-20 行脏数据样本
- 期望输出格式(lowercase / Title Case / “姓 名”)
- 不允许改变的事(“不要展开缩写”、“不要推断国家”)
- 一份”理想输出”样本,让 AI 知道什么算成功
- 参考列表(如果有受控词表 / 城市清单)
- 不确定行:是标
[REVIEW]还是给最佳猜测
可直接复制的 Prompt
清洗这列脏文本。
期望输出:<格式 + 示例>
允许变换:<大小写归一 / 去空格 / 修明显错字 / 去重>
不允许:<展开缩写 / 推断缺字段 / 合并人名 / 改变意思>
参考列表(如果适用):<list>
不确定行:<标 [REVIEW: 原因] 或最佳猜测>
样本(10-20 行):
"""
<paste>
"""
理想输出示例:
"""
<贴 3-5 行干净的>
"""
请输出:
1. 清洗后的样本,与输入行对齐
2. diff 日志——你改的每一行:原值 / 新值 / 原因
3. review 队列——不确定的行
4. 这段 Prompt 是否可以安全放大到全列
不确信时不要硬套模式——标出来。
1000+ 行的:“样本确认后,给我精确的变换规则,让我用公式放大,而不是再 prompt 一次。“
建议让 AI 输出成什么样
清洗样本 + diff 日志(原 / 新 / 原因)+ review 队列(要人看的行)+ 全列是否安全结论。diff 日志是最有用的——没它,错误会无声传播。
怎么判断 AI 给的结果能不能直接用
- 同一段 Prompt 跑两次,输出应一致
- 在 diff 日志里抽 5 行核
- 有 review 队列——如果 AI 一行都没标”不确定”,它就太自信了
- 参考列表是精确匹配,不要”近似匹配未标记”
- 没行”意思”被改(Sun → Sunday 是改意思;sun → Sun 只是改大小写)
容易踩的坑
- 不取样直接全列丢进去——错了再发现
- 没给”理想输出”样本——AI 自己猜你想要什么
- 让 AI 展开缩写——“USA” 变 “United States of America” 会破坏下游 Join
- 没 diff 日志——更正悄悄发生
- 跳过 review 队列——被标的行不是失败,是稳妥路径
实操加深
做「用 AI 清洗 Excel 脏数据:大小写、空格、错字、去重」这类任务时,AI 输出质量主要取决于输入包是否完整。至少给它受众、原始材料、目标格式、你要做的决策,以及一好一坏两个参考。第一轮先要求保留事实,第二轮再优化结构、语气或表达,不要让模型一边猜事实一边润色。
拿到结果后单独做一次复核:有没有遗漏限制、编造细节、行动项不清、语气和真实场景不符。最终稿最好能马上使用,包含明确对象、下一步和判断标准,而不是还需要别人重新解释一遍。
FAQ
- 公式还是 AI? 确定性规则用公式;模糊用 AI。两者结合:AI 找模式,公式放大。
- PII 怎么办? 谨慎。敏感数据先 hash 再贴。
- AI 按相似度去重吗? 能,但相似度规则要核。“John Smith” / “J. Smith” 可能是同一人也可能不是。
相关
- 表格解读 ——把干净表压成易读总结
- 图表关键信息 ——清洗后看图
- 电子表格错误诊断 Prompt ——公式出问题时
- Excel 公式解释 Prompt ——读懂现有公式
- Excel 分析 Prompt ——清洗后的深度分析
- ChatGPT 处理电子表格 ——工具走查
- AI 表格解读教程 ——完整表格流程