任务场景
A/B 测试跑完了。Dashboard 上有主指标、两三个次指标、样本量分布、按端 / persona 的分段。周五下午 3 点你要在 Slack 丢一页:赢了输了,学到啥,要不要 ship,下一个测什么。这一页要能扛住一个挑剔读者——那种 30 秒就能看出你漏了 CI、藏了 mobile 输的同事。
什么时候适合让 AI 来做
AI 在这件事上有三个用处:把结构搭稳(标题 → 主指标 → 次指标 → 分段 → caveat → 下一步)、把统计黑话翻成一句人话(“真实提升大概率落在 7%-17% 之间”)、把你赢了之后会忘的 caveat 清单显化出来。AI 不擅长的:它跑不了统计。如果你把原始转化数喂它让它算 p 值,它会编一个看起来很合理但是错的。统计自己算(或者实验平台算),把 CI 和 p 值喂它就行。
需要先给 AI 的信息
- 测试名、一句话假设、起止日期、跑了几天
- 各组样本量(如有不均衡,注明)
- 主指标:control 值、variant 值、绝对提升、相对提升、95% CI、p 值
- 动了的次指标——正负都要
- 至少 2 个维度的分段(device、新老用户、付费档)
- Guardrail 指标(延迟、报错率、退款率)——没动也要列
- 测试期内已知的季节性或外部事件(大促、宕机、节假日)
- 团队当前的 ship 门槛(如:“主指标涨 + guardrail 不破就 ship”)
可直接复制的 Prompt
给团队会写一页 A/B 测试总结。
测试:{name + 一句话假设 + dates + 跑了几天}
样本:{n_control / n_variant,注明是否不均衡}
主指标:{metric, control, variant, lift abs, lift rel, 95% CI, p}
次指标:{逐条列出 delta,标注 + 或 -}
分段:{device / cohort / 付费档 切分}
Guardrail:{延迟、报错率、退款率}
外部因素:{测试期内的节日、宕机、campaign}
Ship 门槛:{我们的发车标准}
返回:
1)标题——一句话给出决策(ship / hold / kill)+ 最重要的一个 caveat
2)主结果——把 CI 翻成大白话,不要黑话
3)次指标 effect——任何负面都要点名
4)分段视角——提升是否集中在一个 segment、同时另一个 segment 在亏?
5)Caveat——至少 novelty、季节性、样本量充分性
6)决策 + rollout 方案
7)针对遗留疑问的下一个实验
备用 Prompt——给 exec 的 TL;DR
输入同上。但写 5 行 exec 总结,不写一页。
第 1 行:6 个字以内给 ship / hold / kill。
第 2 行:lift + CI 用大白话。
第 3 行:你最担心的一件事。
第 4 行:rollout 范围(100%、分 segment、还是分批)。
第 5 行:下一个测什么。
不要标题、不要 bullet、不要黑话。
输出示例
好用标题: “桌面端 ship——variant B 把激活率提了 12%(真实提升 7%-17%,p=0.001),但提升全来自桌面端;mobile 用户基本平(+0.4%,在噪声内)。Mobile 下个 sprint 单独测。”
Exec TL;DR 示例: “桌面端 ship variant B。激活涨了 12%,真实提升大概率在 7%-17% 之间。担心:mobile 没动,不是普适胜。本周只 ship 桌面端流量。下一步:给 mobile 专门做一版更短的表单测。“
怎么改输出
- AI 一笔带过 caveat: “每个 A/B 至少有 3 个 caveat——novelty、分段异质、样本量充分性。逐条点名,一句话风险评估。”
- 过度看 p 值: “把提升翻成用户能感知的单位——每周多多少注册、每个 cohort 多多少美金。光 p 值不能下决策。”
- 分段视角太泛: “挑出离平均提升偏离最大的 segment,写一句话评估这个 segment 要不要单独 rollout。”
- 标题摇摆: “强制下决策:ship、hold、kill。三选一。如果选不出,写 ‘hold pending X’,并点名 X 是什么。”
- 下一步太虚: “给一个具体 follow-up:假设是什么、看什么指标、针对哪个 segment。“
容易踩的坑
- 只报主指标——真正翻转决策的往往是分段切片或某个次指标的反向,漏了就把 mobile 输当桌面赢 ship 出去。
- 忽略分段异质——平均 5% 提升 = 桌面 +15% / mobile -5%,rollout 不能一刀切。
- p 值崇拜——百万用户上的 0.3% 提升、p=0.04 统计显著,但业务上没意义。
- 藏 novelty 效应——前 3 天涨 18%、后 3 天涨 4%,AI 要点名出来,不能平均掉。
- 没列 guardrail——variant 转化涨了但退款率翻倍 / 延迟翻倍,这个总结该 kill 不该 ship。
- 没留”下一个测什么”——任何有结论的测试都至少打开一个新问题,没写 follow-up 就是浪费结果。
FAQ
- 样本量多大算够?: 上线前用基线、最小可检测效应、80% power 提前算 power。上线后不要 peek、不要”追显著”,只看预注册分析。
- 结果混合怎么办——主指标赢但次指标破了?: 默认 hold,重新设计。涨收入但涨流失,不是赢,是延后的输。
- 怎么处理 novelty 效应?: 测试窗口三等分,分别报 lift。如果到第二周 lift 急剧衰减,按”未定”处理,延长再跑一次。
- p=0.06、lift 很大,能信吗?: 上线前定好阈值(一般 0.05)就别动。Near-miss 是”重跑”信号,不是”ship”信号。
- 总结里要不要附原始数?: 要,放小附录或脚注。正文给决策,数字给那个一定会问的怀疑者。