行业基准在哪找？

[2026 Amplitude Product Intelligence Report](https://amplitude.com/)、Mixpanel 年度 benchmark、OpenView SaaS benchmark、竞品案例、创始人在会议上分享的数字。Amplitude（每月最多 5 万追踪用户免费）和 Mixpanel（每月最多 2000 万事件免费，含漏斗）都能让你免费测自己的漏斗——这比任何外部均值都强。尽量交叉 2–3 个来源，别只信一个。

小步骤还值得 A/B 吗？

按预期 effect size、80% power、5% 显著算样本量。基线 5%、想检测 10% 相对提升的话，每变体约要 31,000 访客；所需样本量与 1 / MDE² 成正比，提升越小越贵。要 6 个月才显著就改跑定性（5–8 个用户访谈）。

该粘进哪个模型？

截至 2026 年 6 月，Claude Opus 4.7 和 Gemini 3.1 Pro 都是 100 万 token 上下文，多段大导出不会被截断；ChatGPT GPT-5.5 在 Plus 上站内约 320 页（完整 100 万仅 $200 Pro 档）。一个小漏斗，三家都行。

漏斗一直随发布在变怎么办？

每次改前 baseline、之后对比。漏斗最有用的是 delta tracker；拿本月绝对数和去年比，产品变了就没意义。

AI 能预测测试后漏斗长啥样吗？

当 sanity check 用（如"这个测试要让第 3 步提 15pp 才值得做"）。不要当真预测。

非线性漏斗——分支、循环、多产品？

AI 对线性漏斗好用；分支就把每条当独立漏斗喂、让模型对比。循环（re-engagement）正确框架是 cohort 留存，不是漏斗——看下面留存 cohort 文章。

AI 场景化应用

用 AI 解读漏斗：定位真正瓶颈 + 排测试 ROI

找到相对基准 gap 最大的那一步（不是绝对掉量最大），给出预期 ROI 最高的那一个测试——以及不值得跑的测试和原因。

发布于: 2026/05/17 更新于: 2026/06/05 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

把漏斗（绝对计数和步间转化率）连同任何行业基准一起，粘进 ChatGPT（GPT-5.5）、Claude（Opus 4.7）或 Gemini 3.1 Pro，并强制一条规则：按相对基准的 gap 排序，不按绝对掉量排序。视觉上最大的悬崖往往是行业正常的；真正的杠杆通常是某个”看着小”、但远低于基准的掉量。然后让模型强制排序到一个测试、给出样本量数学、并点名哪些测试不值得跑。截至 2026 年 6 月，B2B SaaS 激活率的中位数约 34%（Amplitude），所以 44% 的那一步没问题，22% 的那一步才是急诊——哪怕后面某一步掉的百分点更多。

任务场景

屏幕上的图：100% → 62% → 41% → 18% → 5%。增长负责人坚信第 4 → 5 那段（18% 掉到 5%）是问题，“看那悬崖”。产品经理坚信是第 3 → 4。你怀疑其实是第 2 步，但你说不清为什么。这周只有一个 analyst-day、约 $3,000 测试预算，周四会议你必须给出真建议：下一个 ROI 最高的测试是什么，并解释为什么”最大的悬崖”有时候不是该看的地方。

什么时候适合让 AI 来做

AI 擅长一致套用漏斗框架：相对掉 vs 绝对掉、预期 vs 实际、转化集中 vs 分散。它也擅长给每步掉量提一句假设、强制排出”先测哪个”。AI 做不到的：知道你行业的真实基准。模型对”典型 SaaS 注册 → 激活”有大致先验，但不精确、经常落后一两个版本。喂它真实数字——公开案例、Amplitude / Mixpanel 年度报告、或你自己测过的 trial 账号。你给的基准越窄，readout 越锐。

常见失败模式：模型默认”最大绝对掉量就是问题”。有时对，更多时候错。第 3 步 50% 掉可能完全是行业正常，而第 2 步”小”的 8% 掉可能比基准低 40%、才是真杠杆。强制模型把每步对比基准，而不是对比其他步。

用哪个模型

截至 2026 年 6 月，三家旗舰都能干好这件事。按你要粘的量来选：

模型	适合的漏斗 readout	上下文
Claude Opus 4.7	强制排序和样本量推理最干净	100 万 token
Gemini 3.1 Pro	多段大批量粘贴（整份 BigQuery 导出）	100 万 token
ChatGPT GPT-5.5（Thinking）	单个漏斗的快速来回	Plus 站内约 320 页；完整 100 万仅 $200 Pro

一个几十行的漏斗，三家可以互换。如果你要粘 12 个段、90 天的每日计数，用 Opus 4.7 或 Gemini 3.1 Pro，确保不被截断。还没定默认模型，看模型对比指南。

基准参考值（截至 2026 年 6 月）

没有垂直行业来源时，拿这些当 sanity check。它们来自 2026 Amplitude Product Intelligence Report 和被广泛引用的 trial 转化研究；当先验用，别当圣经，有自己行业的数字就覆盖掉。

漏斗阶段	中位数	头部四分位	底部四分位
B2B SaaS 注册 → 激活	约 34%	55–65%	<18%
免费转付费（不要信用卡）	约 8%	15–25%	<3%
需要信用卡的免费试用	约 30%	—	—

实操结论：24 小时激活和 30 天付费转化几乎线性相关，所以一个低于基准的激活步通常比一个低于基准的 trial-to-paid 步更值钱——它带动下游一切。这正是你想让模型套用的逻辑。

需要先给 AI 的信息

漏斗各步骤的绝对计数 + 步间转化率（绝对数对样本量数学重要）
每步的行业 / 竞品基准（粗略也行）
近 90 天对各步的改动（UI 改、文案改、加要求、撤摩擦）
漏斗顶部的流量来源构成——付费 / 自然 / 推荐的漏斗形状通常很不同
段分布（如有）——桌面 vs mobile、新 vs 老、付费档
每步样本量——一步转化 1k/2k 能 A/B 测，转化 20/40 不行
时间窗——发布期 30 天漏斗和稳态 90 天漏斗不同
你的目标一句话——“我想知道下一个测什么”和”我想知道漏斗够不够健康可以加 ad spend”产出不同

可直接复制的 Prompt

解读这个漏斗，建议下一个测试。

漏斗步骤（绝对计数 + 步间转化率）：[粘]
每步行业 / 竞品基准（粗略也行）：[粘 或 "未知"]
近 90 天对各步的改动：[粘]
漏斗顶部流量来源：[付费 % / 自然 % / 推荐 %]
段分布（如有）：[桌面/mobile、新/老、付费档]
时间窗：[日期、总天数]
我的目标：[这份 readout 支持的决策]

返回：
1）相对基准 gap 最大的那一步——不是绝对掉量最大。给数学：实际率、基准率、gap。如果绝对掉量最大那一步其实在基准范围内，点名（即不是真问题）。
2）gap 最大那步的原因假设一句话——结合近期改动和流量来源能解释。
3）我会先跑的单个测试——点名要改什么（文案、布局、撤要求、加摩擦）、target 段、成功指标、需要样本量、预计运行时长。
4）这里不值得跑的测试——点名 1-2 个表面候选 + 为什么不（样本量不够、掉量是基准正常、下游 confound）。
5）"每周盯这个数"——leading indicator。通常是当前还 OK 但趋势在劣化的一步。

规则：
- 某一步样本量小到不能 A/B 测（4 周内每变体 <100 转化），直接说，改提议定性测试。
- 不要给 5 个测试；强制排序到 1 个 + 理由。读者拒绝 #1 才会问 #2。

短版本——段切片审计

下面是按段切的漏斗：[粘]
找出最扭曲整体漏斗的那个段——即转化和均值差异最大的段。具体：
- 拉低头条掉量的段。
- 隐藏在均值下、其实 OK 的段——为头条段重建漏斗会丢的那个段。
- 在漏斗其他部分改善前，应该停止投付费流量的段。

输出示例

一段有用的 readout：“相对基准 gap 最大是第 3 步（注册 → 首次动作）：你 44%，而 2026 Amplitude 的 B2B SaaS 激活中位数是 34%——所以第 3 步其实高于基准、不是你的问题。真正的 gap 在第 2 → 3，你转化 41%，但最近的 v2 onboarding 改写本该把它抬上去；你的付费流量段只有 22%，远低于约 34% 的中位数。第 4 → 5 视觉上像最大悬崖（18% → 5%），但在 18% 的样本下，5% 的 trial-to-paid 落在你品类约 8% 的’不要信用卡’中位数范围内。假设：v2 的 empty state 撤掉了原来的’创建你的第一个 X’ CTA，付费注册落地时没有明确的下一步。测试：把 empty state CTA 从通用’探索’改回具体’创建你的第一个 X’，target 新注册付费流量段。成功指标：24 小时内完成首次动作 %，目标 55%。样本量：每变体约 1,400（按当前量约 3 周）。每周盯：命中新 CTA 那批 cohort 的 trial-to-paid，确认下游也接住了。”

一句有用的”不值得跑”：“不值得跑：第 5 步（trial-to-paid 文案变体）的 A/B。它的量只有第 4 步的 5%，要约四个月才显著，到时 v3 onboarding 已经发了、测试条件失效。改跑定性——8 个 trial 但未转化用户访谈。“

怎么改输出

AI 选了绝对掉量最大那步：——“每步对比基准，不对比其他步。相对基准 gap 最大是真杠杆；绝对掉量最大经常是行业正常。”
给了 3+ 个测试：——“强制排序到 1。读者拒绝 #1 才会问 #2。多测试建议稀释判断。”
缺样本量数学：——“针对提议的测试，按 80% power、5% 显著、预期 effect size 算每变体所需样本量。记住：所需样本量与 1 / MDE² 成正比——想检测的提升减半，样本量翻四倍。运行时长 >4 周就改提议定性测试。”
缺段切片：——“加段分析：付费 vs 自然、桌面 vs mobile 分别重做漏斗。有时头条掉量是一个段在拉均值。”
leading indicator 太虚：——“点名每周盯的具体数。‘engagement’ 不是 leading indicator；‘付费流量新注册的 D1 留存’ 才是。“

容易踩的坑

只优化绝对掉量最大步、不查基准：有时那一步是行业正常，真杠杆在 2 步之前的”小但反常”掉量。
后段步样本不够还硬跑 A/B：四个月才显著、那时产品已经变；定性访谈又快又便宜。
忽略第 1 步（“定义就是 100%”）：真正漏斗顶是 traffic → 第 1 步，它从 traffic 的转化率经常是你忘了测的最大杠杆。
没段切片：5% 转化在桌面是 8%、mobile 是 1%，跟”哪都是 5%“是两件事，rollout 策略不同。
把所有步当一样可修：后段步通常要产品改（工程季度），早段步常常文案 / 布局就行（一周）；按修复成本加权测试建议。
没考虑流量来源：付费、自然、推荐漏斗形状常很不同；三合一图掩盖真相。
混淆 leading 和 lagging：“月营收”滞后一切；“付费流量新注册的 D1 留存”这周就告诉你下个月营收。
不问 readout 给谁看：leadership 要测试建议、产品要假设、营销要杠杆；读者决定形状。

FAQ

行业基准在哪找？：2026 Amplitude Product Intelligence Report、Mixpanel 年度 benchmark、OpenView SaaS benchmark、竞品案例、创始人在会议上分享的数字。Amplitude（每月最多 5 万追踪用户免费）和 Mixpanel（每月最多 2000 万事件免费，含漏斗）都能让你免费测自己的漏斗——这比任何外部均值都强。尽量交叉 2–3 个来源，别只信一个。
小步骤还值得 A/B 吗？：按预期 effect size、80% power、5% 显著算样本量。基线 5%、想检测 10% 相对提升的话，每变体约要 31,000 访客；所需样本量与 1 / MDE² 成正比，提升越小越贵。要 6 个月才显著就改跑定性（5–8 个用户访谈）。
该粘进哪个模型？：截至 2026 年 6 月，Claude Opus 4.7 和 Gemini 3.1 Pro 都是 100 万 token 上下文，多段大导出不会被截断；ChatGPT GPT-5.5 在 Plus 上站内约 320 页（完整 100 万仅 $200 Pro 档）。一个小漏斗，三家都行。
漏斗一直随发布在变怎么办？：每次改前 baseline、之后对比。漏斗最有用的是 delta tracker；拿本月绝对数和去年比，产品变了就没意义。
AI 能预测测试后漏斗长啥样吗？：当 sanity check 用（如”这个测试要让第 3 步提 15pp 才值得做”）。不要当真预测。
非线性漏斗——分支、循环、多产品？：AI 对线性漏斗好用；分支就把每条当独立漏斗喂、让模型对比。循环（re-engagement）正确框架是 cohort 留存，不是漏斗——看下面留存 cohort 文章。

一句话总结

任务场景

什么时候适合让 AI 来做

用哪个模型

基准参考值（截至 2026 年 6 月）

需要先给 AI 的信息

可直接复制的 Prompt

短版本——段切片审计

输出示例

怎么改输出

容易踩的坑

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势