增长实验最常见的浪费是:60% 置信度就提前收测、变体一次改了仨变量却拿”看起来好看”的指标当结论,下个季度复盘时谁也说不清到底哪一刀有效。下面这套 Prompt 把实验设计前置规整:先写可证伪假设、估样本、锁主指标、列护栏,再诚实读结果——包括团队最不愿正视的”无显著提升”与”显著负向”。和 特性优先级 Prompt 配合使用,先决定什么值得测。
这套 Prompt 适合用在哪
- SaaS 定价实验
- Onboarding 流测试
- 落地页 A/B
- 邮件 subject 测试
- 广告素材测试
1. 实验假设
为 {粘贴} 实验写可证伪假设:"改 {X} 会让 {metric} 在 {方向 + 幅度} 移动,因为 {机制}"。然后显式写零假设。输出:"怎样我们就承认错了"。
2. 样本 & 时长估算
为 {假设} 估样本与时长。输入:基线 {值}、预期提升 {%}、日流量 {N}。输出:所需样本、当前流量下耗时、可测最小提升 (MDE)、何时收。
3. 单变量隔离
下面是我的 A/B 方案。审计变体是否只改控制组的 1 个变量。如果变了多个,请提议拆成单独实验。
{粘贴}
4. 预设护栏指标
为 {假设} 列 5 个不应被推动(或仅在阈内变化)的护栏指标:churn、客服压力、加载时长、下游转化、错误率。给越线阈值。
5. 结果诚实读
下面是实验结果。诚实读:(a) 是否统计显著;(b) 是否实际显著;(c) 任何护栏越界;(d) 分群是否差异。输出 ship / kill / 迭代 结论。
{粘贴}
6. 无显著结果解读
我的 A/B 跑满样本无显著提升。请诚实解读:假设错、样本不足、变体太小、指标错。建议下一测。
7. 显著负向结果决策
我的实验显著负向——变体不如控制。下面是详情。请抽取:(a) 学习是否有价值;(b) 对基础假设的暗示;(c) 还有什么要复测。
{粘贴}
8. 定价 A/B 设计
我要测 {旧价} vs {新价}。输出:假设、样本计划、伦理考量(老客户、分群隔离)、决定 ship 的指标、若伤 LTV 的回滚路径。
9. Onboarding 流测试
我要测 onboarding 的 {变体}。输出:假设、样本计划、激活指标、延迟考虑(激活可在 7/14/28 天测)、如何避免 cohort 偏差。
10. 广告素材测试
我要测 4 个广告素材。输出:每个素材的假设、样本计划、主指标(CTR / CVR / CPA)、区分"点击磁铁" vs "转化驱动" 的次指标。
11. 多臂优先级
我有 8 个实验 idea、1 个流量源。请按 ICE 排序。点出先跑的 2 个、原因。指出哪些可并行不互相干扰。
{粘贴}
12. 实验写报模板
实验刚结束。请生成 1 页报告:假设、设计、样本、指标、结果、决策、1 个意外、下次测什么。受众:全公司。让非 DS 也读得懂。
容易踩的坑
- 看见仪表盘”差不多了”就提前收测——偷看会显著放大假阳性
- 一个变体一次改多个变量,最后谁都说不清哪一刀有效
- 不显式写零假设,结果出来就当作是验证了
- 不设护栏指标,变体上线后客服压力翻倍、一周才有人发现
- 把”无显著提升”直接当”没学到东西”,不追问是假设错、样本不足还是指标选错
- 实验跑完才挑主指标,等于把”看起来好看”那个当作结论