置信度要多具体？

— 没有正式模型时，叙事里用低 / 中 / 高就是对的颗粒度。数字置信度（37%）是伪精确的信号；只有在有回归或模拟支撑时才用数字。

叙事要广发吗？

— 先和每个候选驱动的负责人对齐，他们能比广播给所有人更快地确认或排除替代解释。各方输入都到齐了，再发整合版。

数据真的没定论怎么办？

— 那就诚实地写"没定论"的叙事。"我们还不确定是什么导致的，3 个候选在这里、下一步要拉的数据在这里、周五前更新。"诚实的"没定论"，比自信的"错了"更可信。

— Slack 帖：4-6 行。周报 memo：200-300 字。董事会 deck：一页 5 个要点。形状会变，但结构（标题 / 原因加置信度 / 替代解释 / 后续数据 / 建议）不变。

后续数据到了要不要更新叙事？

— 要——而且要公开、面向同样的受众。用新数据更新叙事能建立长期可信度；忽略后续数据则会毁掉它。

该用哪个 AI 模型跑这个？

— 截至 2026 年 6 月，GPT-5.5 的 Thinking 模式在算术上最可靠（比如把 3.2pp 的测试涨幅和 4pp 的观察涨幅对上）。如果你是把一大段原始数据粘进去、想让它在不丢细节的前提下整理，Claude Opus 4.7 更好。两者都在 20 美元/月的档位（ChatGPT Plus、Claude Pro）。模型本身没那么重要，重要的是你粘进去的上下文有多完整——给最好的模型一个单薄的 Prompt，它照样乱归因。

AI 能确认原因是真的吗？

— 不能。这个 Prompt 产出的是一个**带校准语言、站得住脚的假设**，不是证明。确认因果需要你 A/B 实验里的 held-out 群组、一个回归，或者一个干净的自然实验。把 AI 的叙事当作搭框架的那一层，然后照它指出的分段去把消歧数据拉出来。

AI 场景化应用

用 AI 写 KPI 变化的叙事

从“激活率涨 4 分”到“最可能的原因（中等置信度）、还没证实的部分、以及能一锤定音的那份数据”——又不过度归因。

发布于: 2026/05/17 更新于: 2026/06/05 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

某个 KPI 动了，领导问了一句”为什么？“。一份好的叙事会点名最可能的原因并标上置信度，把你还没排除的替代解释明明白白摆在桌面上，再提议能一锤定音的那份数据该怎么拉。AI 擅长把这套带校准的叙事结构搭出来，也擅长把语言从”X 导致了 Y”管住。但它证不了因果，跑不了你的回归，也替你拉不了分段数据。把每个候选驱动、每条反向证据、还有一份”不能下结论”的清单都喂给它——给的上下文越全，它越不会乱归因。下面这份可直接复制的 Prompt 会强制至少 2 个替代解释，并且哪怕故事很干净也强制至少一条降置信度的备注。至于分析本身：GPT-5.5（Thinking 模式）处理多步算术最稳；如果你是把一大段原始数据直接粘进去、想让它在不丢细节的前提下整理，Claude Opus 4.7 更强（均为 2026 年 6 月的情况）。

任务场景

周一早会。激活率周环比涨了 4 个百分点（12% → 16%），CEO 在 #growth Slack 群里冒出一句”为什么？“。你手上有三个候选驱动——A/B 实验 variant B 周二全量上线、营销的定价页改写周三上线、你所在品类 3 月初本来就有已知的季节性上扬。还有一件你暂时不想摆上台面的事：竞品周四宕机，可能把一部分流量推给了你。11 点之前你得给 CEO 一份能用的叙事——最可能的原因、还没排除的替代解释、什么数据能消歧——同时又不能下你站不住脚的因果结论。

什么时候适合交给 AI

AI 真正擅长的是写带校准不确定性的叙事——点名最可能的原因加置信度、列出还没排除的替代解释、提议能消歧的后续数据。它也能把语言从”X 导致 Y”管到”X 与 Y 一致，但有这些前提”。AI 做不到的：真的证明因果。它跑不了回归、拉不了分段数据，也不知道竞品宕机重不重要（除非你告诉它）。把所有候选驱动和你已知的反向证据全部喂给它；喂得越全，它越不会乱归因。

常见的失败模式：模型自信地挑一个原因，把叙事写成了定论。这是一种政治错误——它会让你的团队为 A/B 实验”庆功”，但实际涨幅其实来自定价页。Prompt 里要强制要求至少 2 个替代解释，以及至少 1 条降置信度的备注。

该用哪个模型

模型（2026 年 6 月）	最适合	备注
GPT-5.5（Thinking）	多步算术、对齐重叠的驱动日期	约 2026 年 4 月起成为 ChatGPT 默认；在模型选择器里选 “Thinking” 看推理过程
Claude Opus 4.7	把一大段原始数据（一整周的上线日志、Slack 讨论串）粘进去整理而不丢细节	标准 1M token 上下文；适合”全部粘进去、让它结构化”的场景
Gemini 3.1 Pro	源数据本来就在 Google 表格 / Workspace 文档里	1M 上下文；与 Workspace 集成最紧

写一段 Slack 长度的叙事，三个模型在 20 美元档位上都够用——瓶颈是你输入上下文的质量，不是模型本身。只有当驱动的算术真的乱（同一个 48 小时里好几个上线）时，才需要动用付费的推理模式。

需要先给 AI 的信息

KPI 前后的数值加精确时间窗——周环比、月环比、年同比是完全不同的故事
所有候选驱动加各自日期——发布、营销活动、新功能、文案改动、广告投放变化、外部事件、节假日、季节性
你已知的反向证据——没出现涨幅的分段、本该动但没动的群组、本该相关却没相关的指标
叙事的受众——管理层 / 同级团队 / 董事会；校准度随受众而变
叙事要支持的决策——“是否加速 A/B 全量”和”是否加倍广告投放”会产出不同的框架
你的先入判断——做分析之前你本会赌哪个原因（好让模型替你点出确认偏差）
诚实的”还不知道”清单——还没拉的分段、没对比的时间窗、没核查的来源
“不能下结论”清单——你怀疑、但目前站不住脚的（竞品宕机、机器人流量、看板 bug）

可直接复制的 Prompt

写一份带校准的 KPI 变化叙事。

KPI 与时间窗：[前值、后值、精确日期]
候选驱动与日期：[全部粘上——发布、营销活动、新功能、广告投放、外部事件、季节性]
已知反向证据：[粘任何不符合最明显故事的分段 / 群组 / 相关性]
叙事受众：[管理层 / 同级团队 / 董事会]
叙事要支持的决策：[我们想拍板什么]
我的先入判断：[做分析前我本会赌哪个原因]
还不知道的：[未查的分段 / 时间窗 / 来源]
不能下结论清单：[怀疑但站不住脚的——竞品宕机、机器人流量、看板 bug]

请返回：
1）一行标题——什么动了、动了多少、在哪个时间窗。数字打头。
2）最可能的原因加置信度（低 / 中 / 高），并用一句话解释**为什么是这个置信度**，既不更高也不更低。
3）至少 2 个**尚未排除**的替代解释——每个都配上能证实或证伪它的数据。
4）下一步该拉的后续数据，按"哪个最能减少不确定性"排序。具体到分段、时间窗、要对比的指标。
5）建议动作加时间范围：现在加投 / 再观望一周看确认 / 拍板前再深挖。
6）"不下结论"清单——从我的清单里挑，写成诚实的不确定，而不是闭口不提。

语气：校准、平实、不用营销词（"significant""phenomenal""alarming"）。用 "is consistent with" 而不是 "caused"；用 "tracks with" 而不是 "drove"。置信度低就在标题里写明。哪怕故事很干净，也强制至少一条降置信度的备注。

短版本——单条结论的审计

同事的叙事结论：[粘上结论]。
底层数据：[粘上相关数字]。
请审查：
1）数据**真正**支持的是什么置信度？
2）说出这条结论没有回应的 2 个替代解释。
3）什么后续数据能确认或推翻这条结论？
4）用校准语言重写这条结论。

输出示例

校准过的标题：“激活率周环比涨 4pp（12% → 16%），3/4 那一周。中等置信度，onboarding A/B variant B 贡献了大部分涨幅。”

一段有用的置信度理由：“置信度中、而非高，因为同一周动了三件事：A/B 全量（周二）、定价页改写（周三）、以及 2024 和 2025 都出现过的 3 月初季节性上扬（+1.5pp）。A/B variant B 在测试阶段（50% held-out）的涨幅是 3.2pp，和观察到的 4pp 大部分对得上——但定价页可能也贡献了一部分。”

一个有用的”尚未排除”替代解释：“还在场上的替代：定价页改写（周三）可能提高的是进来注册的用户质量，而不是激活这一步本身。果真如此的话，涨幅应该在 7 天后的 trial-to-paid（试用转付费）上出现，而不是在激活上。周二拉 3/11 群组的 trial-to-paid 数据来消歧。”

一句有用的”不下结论”：“我们不下结论说竞品周四宕机推高了注册质量；我们注意到了这件事，但时间（周四下午晚些）和周二的全量并不干净对齐，而且我们还没拉流量来源数据来确认。”

一份有用的后续数据排序：“下一步价值最高的：(1) 激活率按流量来源切分——涨幅来自付费还是自然流量？这能把 A/B（影响所有注册）和定价页（主要影响自然流量）分开。(2) 3/4 群组 7 天的 trial-to-paid。(3) 激活率按设备切分——移动端 vs 桌面端，能告诉我们 v2 onboarding 的移动端修复有没有起作用。“

怎么改输出

叙事自信地只选一个原因 —— “说出 2 条理由，证明你的首选可能是错的。把它们作为’降置信度’备注加进叙事。如果说不出 2 条，那置信度就是高估了。”
用’尚无定论’敷衍 —— “把候选按概率强行排序，即使不确定也排。‘尚无定论’不是叙事；‘A 最可能，但 B 和 C 还没排除’才是。”
语言过度归因 —— “把每一处 ‘X 导致 Y”X 驱动 Y”X 是 Y 的原因’ 换成 ‘is consistent with”tracks with”aligns with’。因果要么需要受控实验，要么需要一个还没跑的回归。”
后续数据太虚 —— “每一条后续数据的请求都必须点名精确的分段、时间窗、要对比的指标。‘再多拉点数据’不算 follow-up。”
缺’不下结论’清单 —— “补上诚实的不确定段落。怀疑但站不住脚的，应该作为叙事里的’不下结论’写出来，而不是省略。事后被人发现的省略，读起来就像在挑数据。“

容易踩的坑

把相关当成因果——KPI 叙事里最常见的政治错误；只有当 held-out 群组没有同时上涨时，才能说 A/B 实验”驱动”了涨幅。
单一原因的故事——真实的 KPI 变化通常有 2-4 个驱动；只选一个、忽略其余，有一半时间是错的，另一半时间也站不住脚。
跳过”什么能消歧”这一段——团队拿到了故事，却没有下一步的数据动作；没有后续计划的叙事就是闲聊。
没有模型支撑的数字置信度——“37% 置信”读着精确，其实是编的，除非你真跑了概率计算；低 / 中 / 高更诚实。
把替代解释埋在末尾——读者读到第 2 行就停了；替代解释属于第 3 行，不是第 4 段。
用营销词——“significant""phenomenal""alarming” 都在暗示你是在管理读者情绪，而不是在如实报告；校准过的语言更可信。
发 CEO 群之前没和候选驱动的负责人对过——在 CEO 群里突然甩给营销团队一句”你们的定价页可能导致了涨幅”，顺序就错了；先和负责人对齐。
忘了做分段切片——几乎每个 KPI 变化的底下都藏着一个分段故事，而且聚合后的方向甚至可能和每个分段都相反。这就是辛普森悖论——只要两个时期之间各分段的体量发生了变化（比如一波付费流量改变了构成比例），它就是真实的风险。没有分段切片的叙事，读起来就是那个掩盖了真相的均值故事。

FAQ

置信度要多具体？ —— 没有正式模型时，叙事里用低 / 中 / 高就是对的颗粒度。数字置信度（37%）是伪精确的信号；只有在有回归或模拟支撑时才用数字。
叙事要广发吗？ —— 先和每个候选驱动的负责人对齐，他们能比广播给所有人更快地确认或排除替代解释。各方输入都到齐了，再发整合版。
数据真的没定论怎么办？ —— 那就诚实地写”没定论”的叙事。“我们还不确定是什么导致的，3 个候选在这里、下一步要拉的数据在这里、周五前更新。“诚实的”没定论”，比自信的”错了”更可信。
叙事该多长？ —— Slack 帖：4-6 行。周报 memo：200-300 字。董事会 deck：一页 5 个要点。形状会变，但结构（标题 / 原因加置信度 / 替代解释 / 后续数据 / 建议）不变。
后续数据到了要不要更新叙事？ —— 要——而且要公开、面向同样的受众。用新数据更新叙事能建立长期可信度；忽略后续数据则会毁掉它。
该用哪个 AI 模型跑这个？ —— 截至 2026 年 6 月，GPT-5.5 的 Thinking 模式在算术上最可靠（比如把 3.2pp 的测试涨幅和 4pp 的观察涨幅对上）。如果你是把一大段原始数据粘进去、想让它在不丢细节的前提下整理，Claude Opus 4.7 更好。两者都在 20 美元/月的档位（ChatGPT Plus、Claude Pro）。模型本身没那么重要，重要的是你粘进去的上下文有多完整——给最好的模型一个单薄的 Prompt，它照样乱归因。
AI 能确认原因是真的吗？ —— 不能。这个 Prompt 产出的是一个带校准语言、站得住脚的假设，不是证明。确认因果需要你 A/B 实验里的 held-out 群组、一个回归，或者一个干净的自然实验。把 AI 的叙事当作搭框架的那一层，然后照它指出的分段去把消歧数据拉出来。

一句话总结

任务场景

什么时候适合交给 AI

该用哪个模型

需要先给 AI 的信息

可直接复制的 Prompt

短版本——单条结论的审计

输出示例

怎么改输出

容易踩的坑

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势