用 AI 解读 A/B 实验结果:显著性、效应量、效度威胁

用 AI 当严苛的二审:显著性、效应量、样本量校验、效度威胁、下一步该做什么——避免在小样本上做错决定。

任务场景

你跑完一轮 A/B,看板上变体 B 比对照高 4%,Slack 已经有人说”那就上吧”。但在上之前你要知道:这个增量是真的吗?样本够吗?实验期间是不是还有别的变化在跑?你测的指标对吗?AI 在这里像一个高级分析师,按一个清单提你该问的问题。

哪些情况适合让 AI 来做,哪些情况不要

AI 善于跑标准解读清单:显著性、效应量、样本量是否够、新奇效应、分群拆解。但它不知道你的产品在实验期间”还有什么不该变的变了”——那需要你的上下文。把同一窗口里其它发布、营销、宕机一起喂给它,它才能识别 confounder。

需要给 AI 的输入信息

  • 实验设置:假设、对照、变体、随机化单位
  • 主指标 + 守门指标,附定义
  • 每组样本量 + 运行时长
  • 预登记的 MDE(最小可检测效应)
  • 实验期间其它发生的事(其它发布、营销 push、宕机)
  • 分群拆解(如果有):新 vs 老、移动 vs 桌面、地区

可直接复制的 Prompt

解读这次 A/B 结果。
假设:<一句>
随机化单位:<用户 / 会话 / 设备>
主指标:<指标 + 定义>
守门指标:<列表 + 定义>
每组样本量:<数字>
运行时长:<天>
预登记 MDE:<X%>
窗口期其它变化:<列表>

原始结果:
"""
<贴数字 / 表>
"""

请输出:
1. 统计评估:p 值、置信区间、转换成业务单位的效应量
2. 功效校验:现在的样本量对应观测到的效应量够不够
3. 守门指标移动——有没有有害的 trade-off?
4. 效度威胁清单:新奇效应、季节性、同期发布、SRM(流量分配偏差)
5. 分群拆解——是某一群带飞了结果吗?
6. 建议的下一步:上线 / 灰度 / 延期 / 砍 / 重设计——附理由
7. 最容易被误读出的结论是什么?为什么?

小样本不要叫"显著"。p<0.05 但 n 远低于 MDE 所需,请明确指出。

结果反直觉时再追加一轮:“再给我 5 个跟进步骤,验证这是不是真的,含要看哪些分群和怎么设计确认实验。“

建议让 AI 输出成什么样

短小的结论标题(上线 / 延期 / 重设计)、统计数字块、效度威胁列表、分群小表、下一步建议。少用大段散文——读者会引用最短的那一行。

怎么判断 AI 的解读能用

  • 结论有理由,不是只挂个标签
  • 样本量校验是相对于 MDE 算的,不是只看 N
  • 效度威胁都被点名,不是泛泛”小心”
  • 分群拆解能找到”是哪一群带飞了”
  • 如果建议上线,守门指标必须明确干净

容易踩的坑

  • 小样本叫显著——p<0.05 的 n=200 不等于 n=20,000
  • 忽略守门指标——主指标涨、留存掉的上线就是坏上线
  • 没做 SRM——50/50 跑出 53/47 说明随机分流坏了
  • 让 AI 凭空编置信区间——要么你给输入,要么让它给公式,不要让它猜
  • 在新奇效应窗口里就下结论——再跑一段再定

FAQ

  • 没有预登记 MDE 怎么办? 让 AI 根据样本量和指标方差算一个。下次记得提前登记。
  • AI 能跑统计吗? 给输入它能跑 z / t 检验。贝叶斯或顺序分析请用专门工具。
  • 单边还是双边? 默认双边。只有”负结果完全没解释”时才用单边,那种很少。

相关

标签: #数据分析 #工作流 #研究