用 AI 写 KPI 变化的叙事

从“激活率涨 4 分”到“大概率是什么导致、还有什么不确定、什么数据能消歧”——又不过度归因。

任务场景

周一早会。激活率周环比涨 4 个百分点(12% → 16%),CEO 在 #growth Slack 群里来了一句”为什么?“。你手上有三个候选驱动——A/B 实验 variant B 周二全量、营销的定价页改写周三上线、你品类 3 月初有已知季节性。还有一个你暂时不想 surface 的事:竞品周四宕机,可能把流量推给了你。11 点前你要给 CEO 一份能用的叙事——最大可能原因、还在场的替代解释、什么数据能消歧——又不 claim 你 defend 不了的因果。

什么时候适合让 AI 来做

AI 真的擅长写带校准不确定性的叙事——点名最可能原因 + 置信度、列还没排除的替代解释、提议能消歧的后续数据。它也能把语言从”X 导致 Y”约束到”X 与 Y 一致,带这些 caveat”。AI 做不到的:真的证因果。它跑不了回归、拉不了段数据、不知道竞品宕机重不重要(除非你告诉它)。把所有候选驱动和已知反向证据都喂它;喂得越多它越不会 overclaim。

常见失败模式:模型自信选一个原因把叙事写成定论。那是让你团队为 A/B 试验”庆功”、但其实是定价页贡献的政治错误。Prompt 强制要求至少 2 个替代解释和至少 1 条降置信度的备注。

需要先给 AI 的信息

  • KPI 前后数 + 精确时间窗——周环比、月环比、年同比是非常不同的故事
  • 所有候选驱动 + 各自日期——发布、campaign、feature、文案改、ad spend 变化、外部事件、节假日、季节性
  • 你已知的反向证据——没出现 lift 的段、应该动但没动的 cohort、应该相关但没相关的指标
  • 叙事的受众——leadership / 同辈团队 / 董事会;校准度随受众变
  • 叙事支持的决策——“是否加速 A/B 全量”和”是否加倍 ad spend”产出不同框架
  • 你的先入信念——分析之前你会赌哪个原因(让模型点出你的确认偏差)
  • 诚实的”还不知道”清单——还没拉的段、没对比的时间窗、没查的来源
  • “不 claim”清单——你怀疑但 defend 不了的(竞品宕机、bot 流量、看板 bug)

可直接复制的 Prompt

写一份带校准的 KPI 变化叙事。

KPI + 时间窗:{前、后、精确日期}
候选驱动 + 日期:{粘全部——发布、campaign、feature、ad spend、外部、季节性}
已知反向证据:{粘任何不符合最明显故事的段 / cohort / 相关}
叙事受众:{leadership / 同辈团队 / 董事会}
叙事支持的决策:{我们想拍什么}
我的先入信念:{分析前我会赌哪个原因}
还不知道的:{未查段 / 窗 / 来源}
不 claim 清单:{怀疑但 defend 不了的——竞品宕机、bot、看板 bug}

返回:
1)一行标题——什么动了、动多少、哪个窗。数字打头。
2)最可能原因 + 置信度(低 / 中 / 高),一句话解释**为什么是这个置信度**,不是更高也不是更低。
3)至少 2 个**未排除**的替代解释——每个配能 rule in / rule out 的数据。
4)下一步该拉的后续数据,按"哪个最能减少不确定性"排。具体到段、窗、对比指标。
5)建议动作 + 时间地平线:现在加投 / 再观望一周 / 拍板前再深挖。
6)"不 claim"清单——从我"不 claim 清单"里挑,框架成诚实不确定,不是省略。

语气:校准、平实、不要营销词("significant""phenomenal""alarming")。用 "is consistent with" 不要 "caused";用 "tracks with" 不要 "drove"。置信度低就标题里写明。即使是干净故事也强制至少一条降置信度的备注。

短版本——单 claim 审计

同事的叙事 claim:{粘 claim}。
底层数据:{粘相关数字}。
审:
1)数据**真**支持什么置信度?
2)说出 claim 没回应的 2 个替代解释。
3)什么后续数据能确认或杀死这个 claim?
4)用校准语言重写 claim。

输出示例

校准标题:“激活率周环比涨 4pp(12% → 16%),3/4 那周。中等置信度,onboarding A/B variant B 贡献大部分 lift。”

一段有用的置信度理由:“置信中、不高,因为同一周动了三件事:A/B 全量(周二)、定价页改写(周三)、2024 和 2025 都出现过的 3 月初季节性 lift(+1.5pp)。A/B variant B 在测试阶段(50% held-out)的 lift 是 3.2pp,与观察到的 4pp 大部分匹配——但定价页可能也贡献了一部分。”

一个有用的未排除替代:“还在场的替代:定价页改写(周三)可能提高了进来注册的用户质量,不是激活步骤本身。这种情况下我们应该在 7 天后的 trial-to-paid 上看到 lift,不是激活上。周二拉 3/11 cohort 的 trial-to-paid 来消歧。”

一句有用的”不 claim”:“我们不 claim 竞品周四宕机推高了注册质量;我们注意到了,但时间(周四下午晚些)和周二 rollout 不干净对齐,且我们没拉流量来源数据确认。”

一份有用的后续数据排序:“下一步最高价值:(1) 激活按流量来源切分——lift 来自付费还是自然?这能分开 A/B(影响所有注册)和定价页(主要影响自然)。(2) 3/4 cohort 7 天 trial-to-paid。(3) 激活按 device——mobile vs 桌面告诉我们 v2 onboarding mobile 修复是否有用。“

怎么改输出

  • 叙事自信选一个原因 —— “说出 2 个理由你的首选可能错。作为’降置信度’备注加进叙事。说不出 2 个就是置信度高估。”
  • 以’未定’敷衍 —— “候选按概率强行排序,即使不确定。‘未定’不是叙事;‘A 最可能但 B 和 C 没排除’才是。”
  • 语言过度归因 —— “把每一处 ‘X 导致 Y”X 驱动 Y”X 是 Y 的原因’ 换成 ‘is consistent with”tracks with”aligns with’。因果要么需要受控实验、要么需要没跑的回归。”
  • 后续数据太虚 —— “每条后续数据 ask 必须点名精确段、时间窗、对比指标。‘再拉更多数据’不算 follow-up。”
  • 缺’不 claim’清单 —— “加诚实不确定段落。怀疑但 defend 不了的属于叙事里的’不 claim’,不是省略。后来被发现的省略读起来像 cherry-picking。“

容易踩的坑

  • 把相关当因果——KPI 叙事里最常见政治错;A/B 实验”驱动”lift 只有在 held-out cohort 没同时动时才成立。
  • 单因果故事——真实 KPI 变化通常 2-4 个驱动;选一个忽略其他,一半时间错、另一半 defend 不动。
  • 跳过”什么能消歧”段——团队有故事没下一步数据动作;没 follow-up 计划的叙事就是闲聊。
  • 没模型的数字置信度——“37% 置信”读着精确但虚构,除非你真跑了概率计算;低 / 中 / 高更诚实。
  • 替代解释埋在末尾——读者读到第 2 行就停了;替代属于第 3 行,不是第 4 段。
  • 用营销词——“significant""phenomenal""alarming” 都信号你在管理读者情绪而不是报告;校准语言更可信。
  • 发 CEO Slack 前没和候选驱动 owner 同步——在 CEO 群里突袭营销团队”你的定价页可能导致 lift”顺序错了;先和 owner 同步。
  • 忘了段切片——几乎每个 KPI 变化下面都有段故事;没段探索的叙事读起来像隐藏真实的均值故事。

FAQ

  • 置信度多具体? —— 没正式模型时叙事里低 / 中 / 高是对的颗粒度。数字置信度(37%)信号伪精确;只有回归或模拟支撑时才用数字。
  • 叙事要广发吗? —— 先和每个候选驱动 owner 同步,他们能比广播更快确认或排除替代。各方输入到齐再发整合版。
  • 数据真的未定怎么办? —— 诚实写”未定”叙事。“我们还不知道是什么导致的,3 个候选在这、下一步拉的数据在这、周五前更新。” 诚实”未定”比自信”错”更可信。
  • 叙事多长? —— Slack:4-6 行。周 memo:200-300 字。董事会 deck:5 个 bullet 一页。形状变;结构(标题 / 原因 + 置信 / 替代 / 后续数据 / 建议)不变。
  • 后续数据到了要不要更新叙事? —— 要——公开、对同样受众。用新数据更新叙事建长期可信度;忽略 follow-up 数据毁掉它。

相关阅读

标签: #AI 写作 #数据分析 #工作流 #KPI