用 AI 解读 A/B 实验：显著性、SRM、效应量

Q: 没有预登记 MDE 怎么办？

让 AI 反推：在 80% 功效下，凭你的基线转化率和每组 n，这个样本实际能检测到多大的效应。如果观测到的增量比它还小，说明你功效不足。下次实验前先登记好 MDE，把这件事在事前定死。

Q: AI 是真能跑统计，还是只会描述？

用 ChatGPT 数据分析（GPT-5.5）或带代码执行的 Claude（Opus 4.7 / Sonnet 4.6，截至 2026 年 6 月），它会写并运行 Python——用 `scipy.stats` 跑 z 检验、t 检验、卡方——返回真实数字。在没有代码执行的纯聊天里它会估，而那正是它编置信区间的时候。一定要确认是工具在跑代码。

Q: 单边还是双边检验？

默认双边。只有当"负结果对你的决策完全没法解释"时才用单边，那种情况很少。用单边把一个边缘结果硬凑成"显著"，就是 p-hacking。

Q: 出现 SRM 后，如果增量特别大，能信吗？

不能。SRM 意味着分流有偏，那个"特别大"的增量可能只是哪些用户落进哪一组造成的假象。先找到并修掉原因，再重跑。坏随机分流上的大效应，不是证据。

把 AI 当成严苛的二审：显著性、流量分配偏差（SRM）、效应量、功效、效度威胁、下一步该做什么——附可直接复制的 Prompt。

发布于: 2026/05/17 更新于: 2026/06/05 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

把原始 A/B 数字贴进下面的 Prompt，AI 会按高级分析师的清单跑一遍：显著性、流量分配偏差（SRM）、换算成业务单位的效应量、相对 MDE 的功效、守门指标移动、效度威胁。把它当二审，不要当神：它能根据你给的数字算 z 检验或卡方，但它不知道实验期间你的产品里还动了什么，所以那条时间线一定要喂给它。截至 2026 年 6 月，ChatGPT 的数据分析模式（GPT-5.5）和 Claude（Opus 4.7 / Sonnet 4.6）会真的去执行 Python，而不是凭记忆估——用这个能力，并且永远别让模型自己编置信区间。

任务场景

你跑完一轮 A/B，看板上变体 B 比对照高 4%，Slack 已经有人说”那就上吧”。但在上之前，你要回答四个问题：增量是真的吗（显著吗）？样本够不够大，能不能信这个 +4%？实验期间是不是还有别的东西在变？你测的指标对吗？大多数坏上线不是因为算错了，而是因为漏掉了其中一步。AI 在这里的价值，就是一个不肯跳步的二审。

哪些情况适合让 AI 来做，哪些不要

AI 在机械清单上很可靠：显著性、效应量、样本量相对 MDE 够不够、新奇效应、SRM、分群拆解。只要你把原始计数给它，并且用能跑代码的工具（ChatGPT 数据分析或带代码执行的 Claude），它会真的算 z 检验、t 检验、卡方，而不是凭印象近似。

它最不擅长、却最关键的一件事：判断实验期间你的产品里”什么本不该变的变了”。一次和结账实验撞期的定价页改版、实验中途群发的营销邮件、第三天的支付宕机——这些 confounder 模型根本看不见。把同期其它发布的时间线贴给它，它才有机会识别。

需要给 AI 的输入信息

实验设置：假设、对照、变体、随机化单位（用户 / 会话 / 设备）
主指标 + 守门指标，附定义
每组样本量 + 运行时长（天）
预登记的 MDE（最小可检测效应）+ 目标功效
实验期间其它发生的事：其它发布、营销 push、宕机、季节性
分群拆解（如果有）：新 vs 老、移动 vs 桌面、地区

可直接复制的 Prompt

解读这次 A/B 结果。请运行代码计算统计量，不要估算。

假设：[一句]
随机化单位：[用户 / 会话 / 设备]
主指标：[指标 + 定义]
守门指标：[列表 + 定义]
每组样本量：[对照 n、变体 n]
每组转化数：[对照、变体]
运行时长：[天]
预登记 MDE：[X%]，目标功效：[0.80 / 0.90]
窗口期其它变化：[列表]

原始结果：
"""
[贴数字 / 表]
"""

请输出：
1. 先做 SRM 校验：对实际分流 vs 预期分流做卡方拟合优度检验。若 p < 0.01，立即停止并说明实验无效。
2. 统计评估：p 值、95% 置信区间、换算成业务单位的效应量（不要只给相对百分比）。
3. 功效校验：在预登记 MDE 下，n 够不够检测出观测到的效应？若 n 远低于所需，明确指出。
4. 守门指标移动——有没有有害的 trade-off？
5. 效度威胁清单：新奇效应、季节性、同期发布、偷看（peeking）。
6. 分群拆解——是某一群带飞了结果吗？
7. 建议的下一步：上线 / 灰度 / 延期 / 砍 / 重设计——附理由。
8. 这份结果最容易被误读出的结论是什么？为什么？

规则：样本远低于 MDE 所需 n 时，不要叫"显著"。
不要凭空编置信区间——用我给的计数算出来。

结果反直觉时再追加一轮：“给我 5 步确认计划，验证这是不是真的，含要切哪些分群、怎么设计确认实验。“

AI 应该每次都跑的五项检查

检查	”通过”长什么样	2026 年常见阈值
SRM（流量分配偏差）	实际分流和预期分流一致	卡方 p ≥ 0.01；约 6% 的实验会出现 SRM，所以每次都查
显著性	p 值低于 alpha，且置信区间不含 0	alpha = 0.05（双边）
功效 vs MDE	n 满足预登记 MDE 的要求	功效 0.80–0.90；MDE 常取 2–5%（高流量站点更低）
时长 / 新奇效应	跑满 ≥ 2 周；效应在第 2 周后仍稳定	最少 2 周，最多 6–8 周
守门指标	留存、延迟、退款、工单都干净	任一守门指标都没有显著恶化

转化率实验的一个经验底线：每组大约 30,000 用户、约 3,000 次转化，几个百分点的增量才值得信。低于这个量级，“+4%“的标题多半是噪声。

为什么 SRM 是第一道检查，不是最后一道

流量分配偏差（SRM）指的是流量没按你设计的比例分流——本来 50/50，跑出来 53/47。看起来是小事，但它几乎总意味着随机分流或日志出了问题（只对一组做了机器人过滤、某个重定向把用户丢了、缓存 bug），而这会让下游每个数字都有偏。行业标准做法是用卡方拟合优度检验，阈值取严格的 p < 0.01——因为要在丢弃实验前有足够把握。SRM 一旦不过，其它统计量都无法解释，先修原因再重跑。这就是 Prompt 把它排第一、并要求模型一旦不过就停的原因。

偷看（peeking）的陷阱

如果团队盯着看板看了 20 次，一越过 p < 0.05 就宣布赢家，那你真实的假阳性率根本不是 5%——反复偷看能把它推到接近 40%。固定时长（fixed-horizon）实验的做法：提前定好样本量，到点只读一次结果。如果你确实需要持续监控，就用支持顺序检验的平台（Statsig、Eppo、GrowthBook 里的 mSPRT 方法），它会动态调整阈值，让偷看也保持有效。让 AI 顺手判断一下：这个决定是在预先约定的停止点做的，还是中途就拍板了。

怎么判断 AI 的解读能用

结论有理由，不是只挂个”上线 / 砍”的标签
SRM 在其它一切之前先做，并被明确报告
样本量是否够，是相对你的 MDE 算的，不是”n 看着挺大”
效度威胁都被点名（新奇效应、那个具体撞期的发布），不是泛泛”小心”
置信区间是用你的计数算出来的，不是张口就来
如果建议上线，每个守门指标都明确干净

容易踩的坑

小样本叫显著——p < 0.05 的 n=200 和 n=20,000 不是一回事
跳过 SRM 检查，然后去信一个来自坏分流的数字
忽略守门指标——主指标涨、7 日留存掉的上线就是坏上线
让 AI 凭空编置信区间，而不是用计数算出来
在第一周就对新奇效应下结论——至少跑满两周再定
把偷看出来的 p 值当成固定时长实验的结果来读

FAQ

没有预登记 MDE 怎么办？ 让 AI 反推：在 80% 功效下，凭你的基线转化率和每组 n，这个样本实际能检测到多大的效应。如果观测到的增量比它还小，说明你功效不足。下次实验前先登记好 MDE，把这件事在事前定死。

AI 是真能跑统计，还是只会描述？ 用 ChatGPT 数据分析（GPT-5.5）或带代码执行的 Claude（Opus 4.7 / Sonnet 4.6，截至 2026 年 6 月），它会写并运行 Python——用 scipy.stats 跑 z 检验、t 检验、卡方——返回真实数字。在没有代码执行的纯聊天里它会估，而那正是它编置信区间的时候。一定要确认是工具在跑代码。

单边还是双边检验？ 默认双边。只有当”负结果对你的决策完全没法解释”时才用单边，那种情况很少。用单边把一个边缘结果硬凑成”显著”，就是 p-hacking。

出现 SRM 后，如果增量特别大，能信吗？ 不能。SRM 意味着分流有偏，那个”特别大”的增量可能只是哪些用户落进哪一组造成的假象。先找到并修掉原因，再重跑。坏随机分流上的大效应，不是证据。

一句话总结

任务场景

哪些情况适合让 AI 来做，哪些不要

需要给 AI 的输入信息

可直接复制的 Prompt

AI 应该每次都跑的五项检查

为什么 SRM 是第一道检查，不是最后一道

偷看（peeking）的陷阱

怎么判断 AI 的解读能用

容易踩的坑

FAQ

相关

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势

用 AI 解读漏斗：定位真正瓶颈 + 排测试 ROI