增长实验 Prompt：设计与读数 A/B 测试模板

Q: 该用多少置信度和功效？

行业默认是 95% 显著性（p < 0.05）和 80% 功效。只有当假阳性代价很高时（定价、不可逆改动）才把显著性提到 99%；只有当你接受漏掉真实增益时才把功效降到 80% 以下。[Optimizely 的样本量计算器](https://www.optimizely.com/sample-size-calculator/) 等工具都把这两个当输入。

Q: 偷看为什么这么要命？

每多看一次正在跑的实验并考虑收测，你就多给了自己一次"把随机噪声当成越线"的机会。第一次冲到 95% 就收，会把真实假阳性率推到约 25%。解法要么是固定样本（只在跑满时读一次），要么是数学上修正了反复偷看的序贯检验。

Q: 该用贝叶斯还是频率派？

只要用得诚实，两者都行。频率派给你 p 值和置信区间，是多数工具的默认；贝叶斯直接给出"B 优于 A 的概率"，更好解释，也天然适合连续监测。实践中，在线测试真正的提速来自序贯方法（无论贝叶斯还是频率派），而非哲学流派之争。用你团队和工具已经支持的那个，并保持一致。

Q: AI 能替我做统计吗？

设计推理和算术它都能做，前提是你粘进真实数字、并开推理模式（ChatGPT Thinking、Claude 扩展思考、Gemini 3.1 Pro）。任何样本量或 p 值的输出，行动前请用专门的计算器复核，跟你在 [用 AI 做商业数据分析指南](/zh/articles/business-data-analysis-ai/) 里一样。把模型当作快速的第二读者，而不是真相来源。

Q: 一个测最少跑多久？

要久到能（a）达到算出来的样本量，且（b）覆盖至少一个完整业务周期，通常一到两周，让工作日/周末、发薪日等效应被平均掉。在某个反常的周二刚好凑够样本数，不算跑完的实验。

12 个 Prompt 做不浪费一个季度的增长实验：可证伪假设、样本量估算、护栏指标，以及对持平或负向结果的诚实解读。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

增长实验最常见的浪费是这样的：一个 60% 置信度、偷看三天就提前收掉的”获胜”实验上线了；另一个变体一次改了四样东西，最后挑”看起来最好看”的指标当结论。下面这 12 个 Prompt 把实验设计前置规整——上线前先写好可证伪假设、估样本、锁主指标、列护栏，跑完后再诚实读结果，包括团队最不愿正视的那两种：无显著提升和显著负向。先用特性优先级 Prompt 决定什么值得测，再用这套设计怎么测。

TL;DR

上线前： 写带显式零假设的可证伪假设、锁定主指标、算样本量。标准默认值是 95% 置信度（p < 0.05）和 80% 统计功效。
设护栏： 在变体上线前，列 3-5 个绝不能动的指标（流失、客服压力、加载时长、错误率），并给出越线阈值。
别偷看。 一看到结果好看就提前收测，会把假阳性率从 5% 拉高到约 25%。要么跑满预算样本，要么换成专门为连续监测设计的序贯检验。
两种”显著”都要读： 一个结果可以统计显著（p < 0.05），却在业务上微不足道（0.1% 的提升，上线成本比它赚的还多）。
用哪个模型： 任意当前一线模型（GPT-5.5、Claude Sonnet 4.6、Gemini 3.1 Pro）都能想清楚实验设计；涉及算术的读数 Prompt 建议开推理模式（ChatGPT Thinking、Claude 扩展思考），并粘进你的真实数字。

这套 Prompt 适合用在哪

SaaS 定价实验
Onboarding 流测试
落地页 A/B
邮件 subject 测试
广告素材测试

开测前先锁死的统计设置

下面前三个 Prompt 都要这几个输入。一次性定好、之后复用，每个实验才可比。

设置	常用默认值	控制什么
显著性水平（alpha）	95%（p < 0.05）	容忍多少假阳性
统计功效（power）	80%	真有效果时能检出的概率
最小可测提升（MDE）	值得上线的最小提升	MDE 越小，需要的流量暴增
主指标	上线前锁定	防止事后挑指标
检验方式	固定样本 / 序贯	序贯检验能安全地连续监测，不吃偷看的惩罚

如果 1% 的提升不会改变任何一个决策，就把 MDE 设成真正会让你改决策的那个幅度，计算器会诚实告诉你这要花多少流量。

1. 实验假设

为 {粘贴} 实验写可证伪假设："改 {X} 会让 {metric} 在 {方向 + 幅度} 移动，因为 {机制}"。然后显式写零假设。输出："怎样我们就承认错了"。

2. 样本 & 时长估算

为 {假设} 估样本与时长。输入：基线 {值}、我在意的 MDE {%}、每变体日流量 {N}、显著性 95%、功效 80%。输出：每臂所需样本、当前流量下耗时、这点流量实际能测出的最小提升、应该收测的具体日期。

3. 单变量隔离

下面是我的 A/B 方案。审计变体是否只改了控制组的 1 个变量。如果变了多个，逐个列出，并提议拆成单独实验，让每个提升都能归因。

{粘贴}

4. 预设护栏指标

为 {假设} 列 5 个不应被推动（或仅在阈内变化）的护栏指标：流失、客服工单率、加载时长、下游转化、错误率。对每个，给出会触发自动停测的越线阈值。

5. 结果诚实读

下面是实验结果。诚实读：(a) 在 95% 下是否统计显著；(b) 考虑上线成本后是否业务显著；(c) 任何护栏越界；(d) 是否有分群效果偏离均值。输出 ship / kill / 迭代 结论，并指明那个决定一切的关键数字。

{粘贴}

6. 无显著结果解读

我的 A/B 跑满样本，无显著提升。请就四种原因诚实解读：假设错了、样本不足（功效不够）、变体太小不足以产生影响、指标选错了。从数字看哪种最可能，并建议下一测。

{粘贴}

7. 显著负向结果决策

我的实验显著负向——变体不如控制。下面是详情。请抽取：(a) 这个学习是否有价值、为什么；(b) 它对我们原本持有的基础信念有什么暗示；(c) 建立在那个信念之上的还有什么需要复测。

{粘贴}

8. 定价 A/B 设计

我要测 {旧价} vs {新价}（{产品}）。输出：假设、样本计划、伦理考量（老客户给老价、隔离新注册分群）、决定 ship 的指标（转化 vs 每访客收入 vs LTV）、若伤 LTV 的回滚路径。

9. Onboarding 流测试

我要测 onboarding 的 {变体}。输出：假设、样本计划、激活指标、延迟问题（激活可能要到 7 / 14 / 28 天才显现，读得太快会误判）、如何避免按季节或获客渠道产生 cohort 偏差。

10. 广告素材测试

我要测 4 个广告素材（{产品}）。输出：每个素材的假设、每臂样本计划、主指标（CTR / CVR / CPA）、区分"点击磁铁"（高 CTR、低 CVR）与真正"转化驱动"的次指标。

11. 多臂优先级

我有 8 个实验 idea、1 个流量源。下面是每个 idea。按 ICE（Impact x Confidence x Ease）打分，把算式写出来，挑出先跑的 2 个并说明理由。标出哪些可并行不互相干扰，哪些会把流量切得太碎、达不到功效。

{粘贴}

12. 实验写报模板

实验刚结束。请生成 1 页报告：假设、设计、样本、主指标 + 护栏指标、带置信度的结果、决策、1 个意外、下次测什么。受众：全公司。让非数据科学背景也读得懂。

容易踩的坑

偷看。 看见仪表盘”差不多了”就提前收测，会把假阳性率从 5% 拉到约 25%。要么跑满预设样本，要么用专门为连续监测设计的序贯检验。
多变量臂。 一个变体一次改多样东西，任何提升都无法归因。拆成单变量实验（Prompt 3）。
不写零假设。 没有显式零假设，任何带噪声的结果都会被当成”验证了”。
没有护栏。 变体上线、客服压力翻倍，一周后才有人发现，只因为没设越线阈值。
混淆两种显著。 统计显著的 0.1% 提升，不一定值得花工程成本去上线。
挑指标。 看完数据才选主指标，等于把任何实验都变成事后合理化。
功效不足却当”没效果”。 流量太少的”无提升”意味着即使真有提升你也看不见；下结论说假设错之前，先查功效。

FAQ

该用多少置信度和功效？ 行业默认是 95% 显著性（p < 0.05）和 80% 功效。只有当假阳性代价很高时（定价、不可逆改动）才把显著性提到 99%；只有当你接受漏掉真实增益时才把功效降到 80% 以下。Optimizely 的样本量计算器等工具都把这两个当输入。

偷看为什么这么要命？ 每多看一次正在跑的实验并考虑收测，你就多给了自己一次”把随机噪声当成越线”的机会。第一次冲到 95% 就收，会把真实假阳性率推到约 25%。解法要么是固定样本（只在跑满时读一次），要么是数学上修正了反复偷看的序贯检验。

该用贝叶斯还是频率派？ 只要用得诚实，两者都行。频率派给你 p 值和置信区间，是多数工具的默认；贝叶斯直接给出”B 优于 A 的概率”，更好解释，也天然适合连续监测。实践中，在线测试真正的提速来自序贯方法（无论贝叶斯还是频率派），而非哲学流派之争。用你团队和工具已经支持的那个，并保持一致。

AI 能替我做统计吗？ 设计推理和算术它都能做，前提是你粘进真实数字、并开推理模式（ChatGPT Thinking、Claude 扩展思考、Gemini 3.1 Pro）。任何样本量或 p 值的输出，行动前请用专门的计算器复核，跟你在用 AI 做商业数据分析指南里一样。把模型当作快速的第二读者，而不是真相来源。

一个测最少跑多久？ 要久到能（a）达到算出来的样本量，且（b）覆盖至少一个完整业务周期，通常一到两周，让工作日/周末、发薪日等效应被平均掉。在某个反常的周二刚好凑够样本数，不算跑完的实验。

TL;DR

这套 Prompt 适合用在哪

开测前先锁死的统计设置

1. 实验假设

2. 样本 & 时长估算

3. 单变量隔离

4. 预设护栏指标

5. 结果诚实读

6. 无显著结果解读

7. 显著负向结果决策

8. 定价 A/B 设计

9. Onboarding 流测试

10. 广告素材测试

11. 多臂优先级

12. 实验写报模板

容易踩的坑

FAQ

相关阅读

相关文章

App Store 评论回复 Prompt：提分模板

App Store 截图文案 Prompt：滚动转化模板

流失原因分析 Prompt：退订数据模板

竞品功能对比 Prompt：矩阵搭建模板

功能上线公告 Prompt：应用内与邮件模板

帮助中心 FAQ Prompt：产品支持模板（2026）