大多数价格 A/B 测试的账都是糊的。每用户收入在测试窗口内被截断,退款和流失的窗口又拖到测试之后,“胜出”的价格上线,三个月后才发现 90 天净收入反而更差。AI 救不了脏数据,但它能在你跑测试之前,把所有会算糊的地方都明确列出来。
这个任务
输出一页纸的定价实验 brief:假设、价格选项、主指标(一个干净窗口内的每装机收入)、unit economics 检查、LTV 敏感性,以及你打算如何避开那些 A/B 算糊的坑。
什么时候适合让 AI 做
- 你已经知道 CAC、当前 ARPU 和一个粗略的 90 天 LTV。
- 你在测 2-3 个价格档,不是 7 个。(7 个不是实验,是钓鱼。)
- 你能用天数说清楚自己的退款和流失窗口。
- 受众不算太小——每条 arm 在窗口内至少能跑到 5k 新转化。
- 你能忍住,不在 LTV 窗口收口之前就把”赢家”推全量。
要给 AI 喂什么
- 当前价格 + 2-3 个候选价格(以及每个价位背后的策略:渗透、溢价、锚点)
- 各渠道当前 CAC
- 当前 ARPU 和 90 天 LTV(或者直接说”还不知道 LTV”——AI 两种情况都能处理)
- 退款窗口(Apple 90 天,再加上你自己的宽限策略)
- 转化基线:免费转付费比率
- 你实际能切出来的样本量
- 决策时间线(“无论如何 8 周后就上线”)
可直接复制的 Prompt
You are a pricing analyst writing a one-page experiment brief.
Current state:
- App: a one-tap habit tracker (consumer iOS, subscription).
- Current price: $4.99/mo, $39.99/yr.
- ARPU: $11.40 trailing 90 days.
- Estimated 90-day LTV: $14.60 (we have 14 months of data).
- CAC: $4.20 from organic, $9.80 from paid social.
- Free-to-paid: 3.1% in trial-to-paid (7-day trial).
Test design:
- Test prices: $4.99 (control), $6.99 (premium), $3.99 (penetration).
- Audience: new iOS installs only, en-US, ja-JP excluded (different pricing psychology).
- Decision horizon: 8 weeks.
- Refund/cancellation window: Apple's 90 days.
Output the brief in this exact order:
1. Hypothesis (per arm). Form: "At price X, free-to-paid will move from 3.1% to Y; ARPU on the conversion will move by Z; net revenue per new install will change by W."
2. Primary metric: revenue per new install (RPNI) measured on a fixed 28-day window from install. State why we use RPNI rather than conversion rate alone.
3. The four ways this experiment can produce lossy math, and how we will avoid each:
a) Refund window outlasts test window
b) Annual vs monthly mix differences between arms
c) Free-trial conversion timing differences
d) Selection bias from price-sensitive audiences
4. Unit-economics check. For each arm, the breakeven CAC. Mark the arm where paid social goes underwater.
5. LTV sensitivity. If LTV is actually 20% lower than estimate, which arm is still positive?
6. The result we would NOT ship even if it "wins" — and why.
Rules:
- No "consider." Each arm gets a clear go/no-go criterion.
- No invented numbers. Anything I did not provide, mark [need from finance].
- Call out underpowered cohorts in plain language.
- Max one page.
示例输出
每条 arm 的假设。 溢价 $6.99:免费转付费降到 2.3%(-0.8 个百分点),转化后的 ARPU 上升 30%,RPNI 相对对照组 +12%。渗透 $3.99:免费转付费升到 4.0%(+0.9 个百分点),转化后的 ARPU 下降 18%,RPNI 仅 +4%。对照 $4.99:基线。
主指标。 以装机日对齐、28 天固定窗口的 RPNI。只看转化率会误导——渗透价能赢转化但输收入。RPNI 在装机层面同时捕捉两件事。[需财务确认:28 天 RPNI 是否为公司统一口径]。
算糊防御。 (a) 退款:分析口子保留到装机后 90 天;不要靠 28 天 RPNI 就拍板,要在第 60 天再复核一次。(b) 年/月组合:RPNI 要按 mix 加权报告;如果溢价 arm 把年度占比推高 10 个百分点以上,按混淆变量处理。(c) 试用时机:用试用结束日(第 7 天)对齐,而不是装机日(第 0 天)。(d) 选择偏差:不要把自然流量过度切到某条 arm。
单位经济。 各 arm 盈亏 CAC:$3.99 = $4.10(付费社交 $9.80 已经亏损——这条 arm 不要跑付费)。$4.99 = $5.20(付费社交临界)。$6.99 = $6.95(付费社交健康)。
LTV 敏感性。 如果真实 LTV 其实是 $11.70(低 20%),只有 $6.99 这条 arm 在付费社交上还为正。如果 LTV 再低 30%,$3.99 那条连自然流量都跑不平。
就算”赢”也不上线的情形。 如果 $3.99 在免费转付费上赢,但 RPNI 输超过 8%,我们不上——哪怕”付费用户更多”在 roadmap 里看上去很漂亮。
怎么继续打磨
- 假设只停在转化层面 → 要求”每条 arm 必须给出 RPNI 方向,不能只给转化”。
- LTV 敏感性被跳过 → 要求”建模 -20% LTV,指出哪条 arm 转负”。
- AI 含糊带过退款窗口 → 要求”明确写出 90 天分析口子”。
- 只讲”赢家”不讲时间线 → 强制”第 60 天复核前不上线”。
- 样本不足的 cohort 被藏起来 → 要求”明确指出任何在窗口内转化不足 5k 的 arm”。
容易踩的坑
- 第 14 天就拍板,因为数字看着不错。第 14 天是退款风暴开始之前。
- 忽视 mix 漂移。溢价 arm 经常把年度占比推高,看起来像 RPNI 提升,其实只是时间点位移。
- 在 unit-negative 的渗透 arm 上跑付费流量。
- 拿试用设计不同的 arm 互相比较;一次只改价格,不要顺手改试用时长。
FAQ
Q:价格 A/B 测试的”干净窗口”该取多长? A:至少覆盖一次订阅续费周期 + 14 天退款窗。月订就是 44 天,年订就是 1 年。短于这个长度,你看到的是”愿意点付费”的差异,不是”愿意留下来”的差异。
Q:AI 能直接告诉我应该定多少钱吗? A:不能。AI 能帮你列价格梯度、检查 unit economics、写 brief,但具体数字必须基于你的成本结构和市场基线。让 AI 给数字等于让它编。
Q:把”提价 + 加福利”放在同一个实验里行不行? A:不行。两个变量混在一起,赢了你不知道是哪个起作用,输了也不知道。先单独测价格,再单独测福利,最后再叠加。
Q:实验期间不能控制的外部因素(节日、竞品降价)怎么办? A:在 brief 里写”作废条件”——比如竞品在测试期内调价超过 20%,或遇到双 11/黑五,立刻冻结实验、跑完节日后重启。事前写好不会被结果绑架。