用 AI 解读漏斗:定位真正瓶颈 + 排测试 ROI

找到相对基准 gap 最大的那一步(不是绝对掉量最大),给出预期 ROI 最高的那一个测试——以及不值得跑的测试和原因。

任务场景

屏幕上的图:100% → 62% → 41% → 18% → 5%。增长负责人坚信第 4 → 5 那段(18% 掉到 5%)是问题,“看那悬崖”。产品经理坚信是第 3 → 4。你怀疑其实是第 2 步,但你说不清为什么。这周只有一个 analyst-day、约 $3,000 测试预算,周四会议你必须给出真建议——下一个 ROI 最高的测试是什么,并解释为什么”最大的悬崖”有时候不是该看的地方。

什么时候适合让 AI 来做

AI 擅长一致套用漏斗分析框架——相对掉 vs 绝对掉、预期 vs 实际、转化集中 vs 分散。它也擅长给每步掉量提假设、排出”先测哪个”。AI 做不到的:知道你行业的真实基准。模型对”典型 SaaS 注册 → 激活转化率”有大致先验但不精确、经常过时。喂它竞品数字(公开案例、播客、你自己测过的 trial 账号)。基准越窄,readout 越锐。

常见失败模式:模型默认”最大绝对掉量就是问题”——有时对,更多时候错。第 3 步 50% 掉可能完全是行业正常,而第 2 步”小”的 8% 掉可能比基准差 40% 才是真杠杆。强制模型对比基准,不是对比其他步。

需要先给 AI 的信息

  • 漏斗各步骤的绝对计数 + 步间转化率(绝对数对样本量数学重要)
  • 每步的行业 / 竞品基准(粗略也行)
  • 近 90 天对各步的改动(UI 改、文案改、加要求、撤摩擦)
  • 漏斗顶部的流量来源构成——付费 / 自然 / 推荐的漏斗形状通常很不同
  • 段分布(如有)——桌面 vs mobile、新 vs 老、付费档
  • 每步样本量——一步转化 1k/2k 能 A/B 测,转化 20/40 不行
  • 时间窗——发布期 30 天漏斗和稳态 90 天漏斗不同
  • 你的目标一句话——“我想知道下一个测什么”和”我想知道漏斗够不够健康可以加 ad spend”产出不同

可直接复制的 Prompt

解读这个漏斗,建议下一个测试。

漏斗步骤(绝对计数 + 步间转化率):{粘}
每步行业 / 竞品基准(粗略也行):{粘 或 "未知"}
近 90 天对各步的改动:{粘}
漏斗顶部流量来源:{付费 % / 自然 % / 推荐 %}
段分布(如有):{桌面/mobile、新/老、付费档}
时间窗:{日期、总天数}
我的目标:{这份 readout 支持的决策}

返回:
1)相对基准 gap 最大的那一步——**不是**绝对掉量最大。给数学:实际率、基准率、gap。如果绝对掉量最大那一步其实在基准范围内,点名(即不是真问题)。
2)gap 最大那步的原因假设一句话——结合近期改动和流量来源能解释。
3)我会先跑的单个测试——点名要改什么(文案、布局、撤要求、加摩擦)、target 段、成功指标、需要样本量、预计运行时长。
4)这里**不**值得跑的测试——点名 1-2 个表面候选 + 为什么不(样本量不够、掉量是基准正常、下游 confound)。
5)"每周盯这个数"——leading indicator。通常是当前还 OK 但趋势在劣化的一步。

规则:
- 某一步样本量小到不能 A/B 测(4 周内每变体 <100 转化),直接说,改提议定性测试。
- 不要给 5 个测试;强制排序到 1 个 + 理由。读者拒绝 #1 才会问 #2。

短版本——段切片审计

下面是按段切的漏斗:{粘}
找出最扭曲整体漏斗的那个段——即转化和均值差异最大的段。具体:
- 拉低头条掉量的段。
- 隐藏在均值下、其实 OK 的段——为头条段重建漏斗会丢的那个段。
- 在漏斗其他部分改善前,应该停止投付费流量的段。

输出示例

一段有用的 readout:“相对基准 gap 最大是第 3 步(注册 → 首次动作):你 44%,类似 B2B SaaS 行业典型 60%。第 4 → 5 视觉上像最大悬崖(18% → 5%),但在 18% 的样本下,5% 在你品类的 trial-to-paid 基准范围内。第 3 步假设:empty state 没明确下一步动作,且最近 v2 onboarding 改写把原来的’创建你的第一个 X’ CTA 撤了。测试:把 empty state CTA 从通用’探索’改回具体’创建你的第一个 X’、target 新注册付费流量段(量最大)。成功指标:新注册 24 小时内完成首次动作 %,目标 55%。需要样本量:每变体 1,400(按当前量约 3 周)。每周盯:命中新 CTA 那批 cohort 的 trial-to-paid,确认下游也接住了。”

一句有用的”不值得跑”:“不值得跑:第 5 步(trial-to-paid 文案变体)A/B。样本量是第 4 步的 5%,要 4 个月才显著,到时 v3 onboarding 已经发了、测试条件失效。改跑定性——8 个 trial 但未转化用户访谈。“

怎么改输出

  • AI 选了绝对掉量最大那步 —— “每步对比基准,不对比其他步。相对基准 gap 最大是真杠杆;绝对掉量最大经常是行业正常。”
  • 给了 3+ 个测试 —— “强制排序到 1。读者拒绝 #1 才会问 #2。多测试建议稀释判断。”
  • 缺样本量数学 —— “针对提议的测试,按 80% power、5% 显著、预期 effect size 算每变体所需样本量。运行时长 >4 周就改提议定性测试。”
  • 缺段切片 —— “加段分析:付费 vs 自然、桌面 vs mobile 分别重做漏斗。有时头条掉量是一个段在拉均值。”
  • leading indicator 太虚 —— “点名每周盯的具体数。‘engagement’ 不是 leading indicator;‘付费流量新注册的 D1 留存’ 才是。“

容易踩的坑

  • 只优化绝对掉量最大步、不查基准——有时那一步是行业正常,真杠杆在 2 步之前的”小但反常”掉量。
  • 后段步样本不够还硬跑 A/B——4 个月才显著、那时产品已经变;定性访谈又快又便宜。
  • 忽略第 1 步(“定义就是 100%”)——真正漏斗顶是 traffic → 第 1 步,它从 traffic 的转化率经常是你忘了测的最大杠杆。
  • 没段切片——5% 转化在桌面是 8%、mobile 是 1%,跟”哪都是 5%“是两件事,rollout 策略不同。
  • 把所有步当一样可修——后段步通常要产品改(工程季度),早段步常常文案 / 布局就行(一周);按修复成本加权测试建议。
  • 没考虑流量来源——付费、自然、推荐漏斗形状常很不同;三合一图掩盖真相。
  • 混淆 leading 和 lagging——“月营收”滞后一切;“付费流量新注册的 D1 留存”这周就告诉你下个月营收。
  • 不问 readout 给谁看——leadership 要测试建议、产品要假设、营销要杠杆;读者决定形状。

FAQ

  • 行业基准在哪找? —— 行业报告(垂直)、Mixpanel / Amplitude 年度 benchmark、OpenView SaaS benchmark、竞品案例、创始人在会议上分享的数字。单一来源打折用;尽量交叉 2-3 个。
  • 小步骤还值得 A/B 吗? —— 按预期 effect size 算样本量。6 个月才显著就改跑定性(5-8 个用户访谈)。测试的意义是快速学习。
  • 漏斗一直随发布在变怎么办? —— 每次改前 baseline、之后对比。漏斗最有用的是 delta tracker;拿本月绝对数和去年比,产品变了就没意义。
  • AI 能预测测试后漏斗长啥样吗? —— 当 sanity check 用(如”这个测试要让第 3 步提 15pp 才值得做”)。不要当真预测。
  • 非线性漏斗——分支、循环、多产品? —— AI 对线性漏斗好用;分支就把每条当独立漏斗喂、让模型对比。循环(re-engagement)正确框架是 cohort 留存,不是漏斗——看下面留存 cohort 文章。

相关阅读

标签: #AI 写作 #数据分析 #工作流 #漏斗