ChatGPT 出的图看起来很权威——坐标轴整齐、配色干净、数字像模像样——这才是危险所在。背后的代码可能静默错了、它 sum 的可能是错的那一列、“过滤 outlier”可能悄无声息把一半数据丢了。这套工作流就是那道摩擦力,把这些错误拦在你把图塞进 deck 或董事会之前。目标受众是偶尔做分析的非分析师(运营、PM、独立创始人),想停止被好看的输出骗。
这篇主要解决什么问题
ChatGPT 会写 Python 跑你的 CSV,也很容易出”看上去自信”的错误结果。这套流程在每一步都强制核对。
这篇适合谁看
手里有 CSV / Excel、但不是全职数据分析师的人——运营、PM、独立创始人、研究者。
什么时候适合用
清理脏 CSV、出一张一次性图、比两个数据集、给报告做汇总表。
什么时候不建议用
生产数据管道、涉及 PII、几十万行以上数据集、需要别人能复现的工作。
具体步骤
- 用 Advanced Data Analysis(Plus 及以上)。没这工具 ChatGPT 只是推理,不真的算。
- 一次上传一个文件。先让它描述列、类型、行数、空值,再问分析问题。
- 每张图都让它把对应代码打出来。代码错图就错,漂亮不等于对。
- 核对总数:让它打印目标列的 sum 或 count,跟你的原始文件对一下。
- 分组 / 筛选时让它”每组抽 5 行展示”,自己肉眼检查分桶是否合理。
- 对话结束前导出清洗后的数据集——session 会过期,工作会丢。
建议的操作流程
销售 CSV 清洗:上传 → 让它列列名摘要 → 修数据类型 → 问”哪些行 revenue 是空” → 决定删或填 → 按月分组 → 导出清洗后的 CSV + 汇总图。
容易踩的坑
- 只看图不看代码 / 总数。
- 把 PII 或财务数据上传到个人 ChatGPT。用有隐私保障的工作区,或者先脱敏。
- 让 ChatGPT 自己定义”outlier”而不让你看它用的规则。
- 问”给我洞察”而不是具体问题。会拿到一段听着对、其实泛泛的话。
- 跳过列画像直接画图。类型判断错(数字被解析成字符串)会静默毁掉下游所有聚合。
- 不导出清洗后数据就让沙箱过期。Session 会死;“明天再 reload”是骗自己。
进阶技巧
- 中间多个 checkpoint 都让它导出清洗后的 CSV——保险。
- 重复分析:把最后的 Python 代码留下来,下次自己跑——快很多也好复现。
- 让它”输出等价的 SQL”——学得快,也方便迁移到真数据库。
怎么验收输出
- 最终汇总里每个数字都能追溯到你看过的列和 Python 操作。
- 至少抽查过 5 行原始数据和汇总数对得上。
- 上传的文件里没有 PII。
- 清洗后的数据集已经导出保存到本地。
FAQ
- ChatGPT 真的跑 Python 吗?: 是——Advanced Data Analysis 在 OpenAI 服务器上跑沙箱 Python。免费档没有。
- 我的 CSV 会被存吗?: 文件绑你账号。在意训练就在设置里关掉,PII 别上传。
- 分析用推理模型还是快模型?: 基础分组以外都用推理模型——尤其是多步且你不容易自己验证的。
- 文件太大怎么办?: 先本地采样(比如 10 万行)。真要全量分析就切真 notebook——硬塞过去 ChatGPT 也会静默采样。