ChatGPT 数据分析工作流——出真数字,不是 vibes

Advanced Data Analysis 让 ChatGPT 变成一个真的 Python notebook。这里是怎么用、又不被漂亮图表骗的方法。

ChatGPT 出的图看起来很权威——坐标轴整齐、配色干净、数字像模像样——这才是危险所在。背后的代码可能静默错了、它 sum 的可能是错的那一列、“过滤 outlier”可能悄无声息把一半数据丢了。这套工作流就是那道摩擦力,把这些错误拦在你把图塞进 deck 或董事会之前。目标受众是偶尔做分析的非分析师(运营、PM、独立创始人),想停止被好看的输出骗。

这篇主要解决什么问题

ChatGPT 会写 Python 跑你的 CSV,也很容易出”看上去自信”的错误结果。这套流程在每一步都强制核对。

这篇适合谁看

手里有 CSV / Excel、但不是全职数据分析师的人——运营、PM、独立创始人、研究者。

什么时候适合用

清理脏 CSV、出一张一次性图、比两个数据集、给报告做汇总表。

什么时候不建议用

生产数据管道、涉及 PII、几十万行以上数据集、需要别人能复现的工作。

具体步骤

  1. 用 Advanced Data Analysis(Plus 及以上)。没这工具 ChatGPT 只是推理,不真的算。
  2. 一次上传一个文件。先让它描述列、类型、行数、空值,再问分析问题。
  3. 每张图都让它把对应代码打出来。代码错图就错,漂亮不等于对。
  4. 核对总数:让它打印目标列的 sum 或 count,跟你的原始文件对一下。
  5. 分组 / 筛选时让它”每组抽 5 行展示”,自己肉眼检查分桶是否合理。
  6. 对话结束前导出清洗后的数据集——session 会过期,工作会丢。

建议的操作流程

销售 CSV 清洗:上传 → 让它列列名摘要 → 修数据类型 → 问”哪些行 revenue 是空” → 决定删或填 → 按月分组 → 导出清洗后的 CSV + 汇总图。

容易踩的坑

  • 只看图不看代码 / 总数。
  • 把 PII 或财务数据上传到个人 ChatGPT。用有隐私保障的工作区,或者先脱敏。
  • 让 ChatGPT 自己定义”outlier”而不让你看它用的规则。
  • 问”给我洞察”而不是具体问题。会拿到一段听着对、其实泛泛的话。
  • 跳过列画像直接画图。类型判断错(数字被解析成字符串)会静默毁掉下游所有聚合。
  • 不导出清洗后数据就让沙箱过期。Session 会死;“明天再 reload”是骗自己。

进阶技巧

  • 中间多个 checkpoint 都让它导出清洗后的 CSV——保险。
  • 重复分析:把最后的 Python 代码留下来,下次自己跑——快很多也好复现。
  • 让它”输出等价的 SQL”——学得快,也方便迁移到真数据库。

怎么验收输出

  • 最终汇总里每个数字都能追溯到你看过的列和 Python 操作。
  • 至少抽查过 5 行原始数据和汇总数对得上。
  • 上传的文件里没有 PII。
  • 清洗后的数据集已经导出保存到本地。

FAQ

  • ChatGPT 真的跑 Python 吗?: 是——Advanced Data Analysis 在 OpenAI 服务器上跑沙箱 Python。免费档没有。
  • 我的 CSV 会被存吗?: 文件绑你账号。在意训练就在设置里关掉,PII 别上传。
  • 分析用推理模型还是快模型?: 基础分组以外都用推理模型——尤其是多步且你不容易自己验证的。
  • 文件太大怎么办?: 先本地采样(比如 10 万行)。真要全量分析就切真 notebook——硬塞过去 ChatGPT 也会静默采样。

相关阅读

标签: #ChatGPT #教程 #数据分析 #工作流