样本量多大算够？

上线前用基线、最小可检测效应（MDE）、80% power 提前算 power，然后把样本量和结束日期定死。常见 MDE 目标在 5% 左右，超高流量站可降到 1%-2%，低流量站会升到约 10%。上线后不要 peek、不要"追显著"，只看预注册分析。

结果混合怎么办——主指标赢但次指标破了？

默认 hold，重新设计。涨收入但涨流失，不是赢，是延后的输。

怎么处理 novelty 效应？

测试窗口三等分，分别报 lift。一个第 3 天像赢家的 variant，可能到第 14 天就随 novelty 消退回落到基线附近。如果到第二周 lift 急剧衰减，按"未定"处理，延长再跑一次。

p = 0.06、lift 很大，能信吗？

上线前定好阈值（一般是 95% 置信下的 0.05，行业标准默认值）就别动。Near-miss 是"重跑"信号，不是"ship"信号。

SRM 是什么，为什么总结里要为它留一行？

样本比例失配指你预期的分流（比如 50/50）和实际分流之间出现统计显著差异，用卡方检验在 p < 0.01 判定。它通常意味着埋点或随机分流坏了，无论 lift 看起来多漂亮，实验都已失效。

总结里要不要附原始数？

要，放小附录或脚注。正文给决策，数字给那个一定会问的怀疑者。

AI 场景化应用

用 AI 写 A/B 测试总结

Q: 总结里要不要附原始数？

要，放小附录或脚注。正文给决策，数字给那个一定会问的怀疑者。

把跑完的 A/B 测试压成一页：赢家、提升、CI、分段 caveat、novelty 风险、SRM 检查，加一个干净的 ship/hold/kill 决策。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

TL;DR

统计自己在实验平台里算好，再把算出来的 lift、95% CI、p 值，连同分段和 guardrail 切片一起喂给模型。AI 的活儿是搭结构、翻大白话，不是算数。用下面那个可直接复制的 prompt 生成一页纸：强制 ship/hold/kill 决策、显式的分段视角、novelty 检查、外加一行样本比例失配（SRM）。GPT-5.5 或 Claude Sonnet 4.6（截至 2026 年 6 月，两者各自免费档默认可用）只要喂了真实数字，一遍就能出。

任务场景

A/B 测试跑完了。Dashboard 上有主指标、两三个次指标、样本量分布、按端 / persona 的分段。周五下午 3 点你要在 Slack 丢一页：赢了输了，学到啥，要不要 ship，下一个测什么。这一页要能扛住一个挑剔读者——那种 30 秒就能看出你漏了 CI、藏了 mobile 输的同事。

AI 帮得上和帮不上的地方

AI 在这件事上有三个用处：

搭结构。 它能把固定形状卡住（标题 → 主指标 → 次指标 → 分段 → caveat → 下一步），赶 deadline 时不会漏项。
翻译。 它把统计黑话翻成一句话：“真实提升大概率落在 7%-17% 之间，95% 置信。”
caveat 清单。 它把你赢了之后会忘的标准风险显化出来：novelty、分段异质、样本比例失配。

AI 帮不上的：它跑不了统计。 你把原始转化数喂它让它算 p 值，它会还你一个看起来合理但是错的数。CI 和 p 值在实验平台里算（Statsig、GrowthBook、Optimizely、VWO，或自家 pipeline），把结果喂模型。现在的模型算术比以前强，但置信区间不是那种你想让语言模型在周五 deadline 下临时发挥的”算术”。

需要先给 AI 的信息

测试名、一句话假设、起止日期、跑了几天
各组样本量，以及任何不均衡（这就是你的 SRM 检查，见下）
主指标：control 值、variant 值、绝对提升、相对提升、95% CI、p 值
动了的次指标，正负都要
至少 2 个维度的分段（device、新老用户、付费档）
Guardrail 指标（延迟、报错率、退款率），没动也要列
测试期内已知的季节性或外部事件（大促、宕机、节假日）
团队当前的 ship 门槛（如：“主指标涨 + guardrail 不破就 ship”）

可直接复制的 Prompt

给团队会写一页 A/B 测试总结。
测试：[name + 一句话假设 + dates + 跑了几天]
样本：[n_control / n_variant，注明是否不均衡]
主指标：[metric, control, variant, lift abs, lift rel, 95% CI, p]
次指标：[逐条列出 delta，标注 + 或 -]
分段：[device / cohort / 付费档 切分]
Guardrail：[延迟、报错率、退款率]
外部因素：[测试期内的节日、宕机、campaign]
Ship 门槛：[我们的发车标准]

返回：
1）标题 - 一句话给出决策（ship / hold / kill）+ 最重要的一个 caveat
2）主结果 - 把 CI 翻成大白话，不要黑话
3）次指标 effect - 任何负面都要点名
4）分段视角 - 提升是否集中在一个 segment、同时另一个 segment 在亏？
5）Caveat - 至少 novelty、季节性、样本量充分性、样本比例失配
6）决策 + rollout 方案
7）针对遗留疑问的下一个实验

备用 Prompt：给 exec 的 TL;DR

输入同上。但写 5 行 exec 总结，不写一页。
第 1 行：6 个字以内给 ship / hold / kill。
第 2 行：lift + CI 用大白话。
第 3 行：你最担心的一件事。
第 4 行：rollout 范围（100%、分 segment、还是分批）。
第 5 行：下一个测什么。
不要标题、不要 bullet、不要黑话。

输出示例

好用标题： “桌面端 ship。variant B 把激活率提了 12%（真实提升 7%-17%，p=0.001），但提升全来自桌面端；mobile 用户基本平（+0.4%，在噪声内）。Mobile 下个 sprint 单独测。”

Exec TL;DR： “桌面端 ship variant B。激活涨了 12%，真实提升在 7%-17% 之间。担心：mobile 没动，不是普适胜。本周只 ship 桌面端流量。下一步：给 mobile 专门做一版更短的表单测。“

怀疑者最先查的四个数

写标题之前，先把这几项过一遍。模型只会复述你给的东西，把关在你这边。

检查项	”合格”长什么样	为什么重要
样本比例失配（SRM）	分流比例上的卡方 p ≥ 0.01	SRM 不过（p < 0.01）说明随机分流或埋点坏了；整个结果不可信，不只是”不够精确”
统计 power	按你的 MDE 设计成约 80% power	80% power 下你仍有 1/5 概率漏掉真赢家；low power 的 null 结果是”不知道”，不是”没效果”
置信区间	95% CI 不含 0，且窄到能据此行动	+12% 的提升、CI 为 [+0.5%, +23%] 技术上显著，但太宽，定不了 rollout 规模
测试时长	至少 2 个完整业务周期（通常 2 周）	窗口太短会过度放大 novelty 和工作日/周末偏斜

SRM 不过就停。别在一个坏掉的实验上写赢家总结。告诉模型：“SRM 在 p < 0.01 失败；按无效写，列可能原因（埋点坏了、redirect bug、bot 过滤、测试中途改了分流）。“

为什么”偷看”会毁掉 p 值

团队 ship 假胜最常见的姿势：天天盯 dashboard，一过 p = 0.05 就拍板。把实验看约 20 次而不是 1 次，会把假阳性率从预期的 5% 抬到约 30%-40%。两种治法：(1) 上线前定死样本量和结束日期，结果只读一次；(2) 打开序贯检验（sequential testing）——多数现代平台（Statsig、GrowthBook 的频率派模式）都支持，它会把置信边界拉宽，让你能持续监控而不抬高错误率。如果你的平台有 CUPED 方差削减，它能把所需样本砍掉约 30%-50%（用实验前行为回归掉噪声），让你不偷看也能更快出结论。

在总结里写明你用的是哪套规则。一个知道你在固定时长测试上天天偷看的读者，会直接对 p 值打折。

怎么改输出

AI 一笔带过 caveat： “每个 A/B 至少有 4 个 caveat：novelty、分段异质、样本量充分性、样本比例失配。逐条点名，一句话风险评估。”
过度看 p 值： “把提升翻成用户能感知的单位：每周多多少注册、每个 cohort 多多少美金。光 p 值不能下决策。”
分段视角太泛： “挑出 lift 离平均偏离最大的 segment，写一句话评估这个 segment 要不要单独 rollout。”
标题摇摆： “强制下决策：ship、hold、kill。三选一。选不出就写 ‘hold pending X’，并点名 X 是什么。”
下一步太虚： “给一个具体 follow-up：假设是什么、看什么指标、针对哪个 segment。“

容易踩的坑

只报主指标。 真正翻转决策的往往是分段切片或某个次指标的反向，漏了就把 mobile 输当桌面赢 ship 出去。
忽略分段异质。 平均 5% 提升 = 桌面 +15% / mobile -5%，不等于全面 +5%，rollout 不能一刀切。
p 值崇拜。 百万用户上的 0.3% 提升、p = 0.04 统计显著，但业务上没意义。
藏 novelty 效应。 前 3 天涨 18%、后 3 天涨 4%，要点名出来，不能平均掉。
没列 guardrail。 variant 转化涨了但退款率翻倍 / 延迟翻倍，这个总结该 kill 不该 ship。
跳过 SRM 检查。 一个”赢了”但实际流量 52/48（你分的是 50/50）的 variant，可能是因为埋点丢了用户才赢，不是改动起了作用。
没留”下一个测什么”。 任何有结论的测试都至少打开一个新问题，没写 follow-up 就是浪费结果。

FAQ

样本量多大算够？ 上线前用基线、最小可检测效应（MDE）、80% power 提前算 power，然后把样本量和结束日期定死。常见 MDE 目标在 5% 左右，超高流量站可降到 1%-2%，低流量站会升到约 10%。上线后不要 peek、不要”追显著”，只看预注册分析。
结果混合怎么办——主指标赢但次指标破了？ 默认 hold，重新设计。涨收入但涨流失，不是赢，是延后的输。
怎么处理 novelty 效应？ 测试窗口三等分，分别报 lift。一个第 3 天像赢家的 variant，可能到第 14 天就随 novelty 消退回落到基线附近。如果到第二周 lift 急剧衰减，按”未定”处理，延长再跑一次。
p = 0.06、lift 很大，能信吗？ 上线前定好阈值（一般是 95% 置信下的 0.05，行业标准默认值）就别动。Near-miss 是”重跑”信号，不是”ship”信号。
SRM 是什么，为什么总结里要为它留一行？ 样本比例失配指你预期的分流（比如 50/50）和实际分流之间出现统计显著差异，用卡方检验在 p < 0.01 判定。它通常意味着埋点或随机分流坏了，无论 lift 看起来多漂亮，实验都已失效。
总结里要不要附原始数？ 要，放小附录或脚注。正文给决策，数字给那个一定会问的怀疑者。

TL;DR

任务场景

AI 帮得上和帮不上的地方

需要先给 AI 的信息

可直接复制的 Prompt

备用 Prompt：给 exec 的 TL;DR

输出示例

怀疑者最先查的四个数

为什么”偷看”会毁掉 p 值

怎么改输出

容易踩的坑

FAQ

相关阅读

相关文章

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势

用 AI 解读漏斗：定位真正瓶颈 + 排测试 ROI