finding 最少多少样本？

— 整体百分比：方向性 30+，自信 200+。子分组：每组 30+，最好提前分层让分组 N 已知。低于 30 是"暗示"，不是"显示"。这是产品问卷的经验法则，不是严格的误差边界数学；要算单个比例的置信区间，用[标准样本量计算器](https://www.surveymonkey.com/mp/sample-size-calculator/)更对路。

一页纸里要图吗？

— 每个决策一张图就够。再多就是凑页；带原话的叙事干得更多。如果一张图不能改变行动含义，就砍。ChatGPT 的代码解释器会把图直接画在对话里——让它每个决策画一张柱状或堆叠柱状就好。

问卷样本有偏（只活跃用户答了）怎么办？

— readout 里明说："这份问卷反映的是活跃用户；本报告任何内容都不能解读为对 churned 用户的表态。"然后另排一次 churned 用户的跟进。

模型一直从薄样本里 overclaim 怎么办？

— 加："基于 N<30 的发现，标题里必须含'仅方向性——样本不足以下置信结论'。任何小 N 发现不带这个 caveat 都不允许出现。"再跑。

CSV 太大传不上去怎么办？

— ChatGPT 把单表卡在约 50MB，Claude 网页端拒绝超过约 30MB 的文件。问卷真到这个量级（几万行），导出前先筛到你真正要用的列，或用 MCP 把模型接到数据源、让它直接查询，而不是在一份快照上工作。

怎么把 readout 分享给团队？

— 先发一页纸（文字）。然后做一次 20 分钟现场 walkthrough。不要做 30 页 slide——那正是你一开始想避免的失败模式。

AI 场景化应用

用 AI 解读问卷：把 200 条回答压成 3 个决策叙事

Q: 模型一直从薄样本里 overclaim 怎么办？

— 加："基于 N<30 的发现，标题里必须含'仅方向性——样本不足以下置信结论'。任何小 N 发现不带这个 caveat 都不允许出现。"再跑。

Q: CSV 太大传不上去怎么办？

— ChatGPT 把单表卡在约 50MB，Claude 网页端拒绝超过约 30MB 的文件。问卷真到这个量级（几万行），导出前先筛到你真正要用的列，或用 MCP 把模型接到数据源、让它直接查询，而不是在一份快照上工作。

Q: 怎么把 readout 分享给团队？

— 先发一页纸（文字）。然后做一次 20 分钟现场 walkthrough。不要做 30 页 slide——那正是你一开始想避免的失败模式。

把 200 条问卷压成围绕 2-3 个业务决策组织的一页叙事——配真实原话、先验冲突标记、以及一段诚实的「太薄不能下结论」。附 ChatGPT 与 Claude 实测 prompt，2026 年 6 月。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

TL;DR

把原始 CSV 上传给带代码解释器的对话模型（ChatGPT 或 Claude），告诉它这份问卷要支持的2-3 个决策，让它按这些决策、而不是按题号来组织一页叙事。强制两条规则：每个百分比都带括号里的 N，每个开放题主题都带一句真实原话。最后用一段诚实的”太薄不能下结论”收尾。下面的 prompt 可直接复制，已在 2026 年 6 月用 GPT-5.5 和 Claude Sonnet 4.6 实测。

任务场景

两周前你跑了一份客户问卷。200 条回应、12 道题，躺在一份 CSV 里。PM 想要周五 EOD 之前一份一页纸，用来支持 3 个决策：要不要涨价、要不要砍掉 free tier、下一个 integration 做什么。本能反应是”我做 30 张图”——这正是没人看的 deck 的来源，而且更糟，每个读者看完都带不同的结论走。你要一份围绕 3 个决策组织的一页纸——带真实百分比、样本量、原话——再加一段诚实的”这份问卷不能回答的事”。

该用哪个工具

对一份 200 行的 CSV，目前任何自带 Python 数据工具的对话模型都能算清数学；差别在上传上限，以及你能在多轮追问里保留多少上下文。截至 2026 年 6 月：

工具	完整使用所需套餐	实际 CSV 上限	说明
ChatGPT（Advanced Data Analysis）	免费版约每天 2 次；Plus $20/月完整	单表约 50MB	在沙箱里跑 Python（`pandas`），交叉表和快速画图很顺手。默认模型是 GPT-5.5。
Claude（文件上传）	Pro $20/月；网页端拒绝超过约 30MB 的文件	单次对话最多 20 个文件	Sonnet 4.6 是 1M token 上下文，一份 200 行问卷加上长来回也不会溢出。聚类开放题很强。
Gemini（Google AI Pro）	$19.99/月	1M token 上下文（Gemini 3.1 Pro）	如果问卷本来就在 Google Sheets 里，集成最紧。

一份 200 条、12 题的问卷远在所有上限之内，所以你已经付费的那个就行。就这个工作流而言：当你在同一个文件上反复迭代十几轮时，Claude 更大的标准上下文是个小优势；当你想让它顺便给每个决策画一张图时，ChatGPT 的代码解释器是个小优势。问卷超过约 5 万行时，别再粘 CSV 了，改用 MCP 把模型接到数据源——参见 AI 问卷分析。

什么时候适合让 AI 来做

AI 擅长把开放题聚成主题、抽出能代表每个主题的原话、给百分比配上样本量上下文、并把问卷按决策而不是按题号重组。它也擅长抓”和你先验冲突的发现”——那才是真能改决策的发现。

AI 做不到：判断哪个发现对业务最重要。同一个 84% 既能支持”降价”也能支持”重做升级页”——取决于底下的原话。把你的 2-3 个决策明确喂给它，让它围绕这些组织。AI 也判断不了样本是否有偏——只调研活跃用户得到的数据对 churn 一点也说不了，无论百分比多干净。

常见失败模式：模型在 N 很小时也乐于报百分比（N=8 时报”75% 的人说 X”）。明说：“每个百分比必须括号里带 N，N<30 的发现必须标’仅方向性’。“

需要先给 AI 的信息

原始问卷回应（CSV 上传，或粘文本如果数量少）
这份问卷要支持的 2-3 个业务决策——具体到事
你对每个决策的先验预期（让模型标出冲突）
你调研了谁、怎么抽样——活跃用户？churned 用户？邮件列表？（解释完全不同）
总 N 和响应率（低响应率改变置信度）
关键分组（B2B vs B2C、free vs 付费、国内 vs 海外）
你后悔问的题（让模型降权）
已经引起你注意的原话——给模型一个 qualitative 信号的 anchor

可直接复制的 Prompt

解读这份问卷结果。
回应（CSV 或粘）：[paste]
调研对象 + 抽样方式：[paste]
总 N + 响应率：[paste]
这份问卷要支持的 2-3 个业务决策：[paste]
我对每个决策的先验：[paste]
重要分组（B2B/B2C、free/付费 等）：[paste]
我后悔问的题：[paste]

返回：
1）每个决策一句话标题（最多 3 个决策）。先讲数据说了什么，再讲行动含义。
2）每个决策的定量发现：百分比、括号里 N、样本量上下文。N<30 的标"仅方向性"。
3）每个决策的开放题主题：最多 3 个，每个配一句带引号的原话。没原话不算主题。
4）先验冲突标记——任何与我先验相反的发现。这些值得额外注意，因为它们才是改行为的地方。
5）太薄不能下结论的——明确列出样本不足的题和分组。不要糊弄。
6）末尾两节："这份问卷已能支持的决策" vs "下一轮要问的问题"。

规则：
- 每个百分比必须括号里带 N。
- 每个开放题主题必须有真实原话——意译不算。
- "不知道"和空白不要合并——是不同信号。
- 与先验冲突的发现前面加 [先验冲突] 标签，让我不会漏看。
- 总长 500 字以内。一页纸，不是报告。

短版本——单题深读

下面是单题的所有开放回应。聚成 3-5 个主题。每个主题给：计数、占比（带 N）、一句原话。提及不到 5 次或没可用原话的主题丢掉。

回应：[paste]

输出示例

一条好用的标题：“定价决策：84% 流失用户提到「太贵」（N=92 / 110 流失），但开放题揭示真问题是价值不清晰，不是价格本身。行动：先重做升级页，再考虑降价。[先验冲突：你预期的是价格本身。]”

一段好用的”主题 + 原话”：“主题：‘我不知道我付的钱换了什么’（N=38 / 92 提到价格的人）。代表原话：‘我不知道每月 $20 换的是什么，跟免费版有什么区别。一直想去看升级页，但页面没说清。’ 这个主题比纯’价格太高’（N=22 / 92）大约 2:1。”

一段好用的”太薄不能结论”：“Integration 决策：太薄不能结论。只有 32 个回应回答了 integration 题，其中 18 个说’无所谓’。剩下 14 个分散在 6 个 integration 上，每个 N≤3。下一轮要把 integration 改成强制排序题，给 5 个候选。”

一段好用的”可支持的决策”收尾：“这份问卷已能支持：（1）定价决策——先重做升级页，降价 defer。（2）free tier 决策——保留，但 free 转付费需要单独调研。这份问卷不能支持：（1）下一个 integration——样本太薄。下一轮要加 integration 强制排序题。“

怎么改输出

每个百分比强制带 N —— “通读全文。每个百分比都要括号带 N。漏的补上。N<30 的后面加’— 仅方向性’。”
每个主题必须有原话 —— “每个开放题主题都要带真实带引号的原话。没原话不算主题——换一个有原话的，或合并。”
先验冲突显眼标 —— “再对照我的先验。任何冲突在前面加 [先验冲突]。这些是最重要的发现，不要埋。”
把”不知道”单独出来 —— “把’不知道’、‘不适用’、空白当三个分桶，不要合一。每个信号不同——‘不知道’在定价上通常是价值不清晰；空白通常是问卷疲劳。”
末尾给”能 / 不能”分割 —— “每份问卷 readout 都用两节收尾：‘已能支持的决策’ vs ‘下一轮的问题’。如果全在’已能’里，是 overclaim；通常 3 个决策里 1 个该入下一轮。“

容易踩的坑

只引百分比不报样本量——8 人里 75% 不是发现，是巧合；每个百分比都要 N
主题没原话——模型在意译，读者却当权威；原话把主题落到真实顾客语言上
忽略”不知道”和空白——它们是信号，往往是最重要的那条；合并掉就把故事埋了
按题号顺序组织 readout——读者在意的是决策，不是你问问题的顺序；按 2-3 个决策重组
过度延伸子分组——12 个回应的子分组只能支持方向性；当作结论会误导
一份问卷想支持太多决策——为 5 个决策设计的问卷通常一个都没答好；进去前选 2-3 个
没喂模型先验——没先验，模型分不清哪个发现是惊喜；惊喜才是改决策的
把”太薄”那部分藏起来——本能想糊过去；这一糊把强发现的可信度也毁了

FAQ

finding 最少多少样本？ —— 整体百分比：方向性 30+，自信 200+。子分组：每组 30+，最好提前分层让分组 N 已知。低于 30 是”暗示”，不是”显示”。这是产品问卷的经验法则，不是严格的误差边界数学；要算单个比例的置信区间，用标准样本量计算器更对路。
一页纸里要图吗？ —— 每个决策一张图就够。再多就是凑页；带原话的叙事干得更多。如果一张图不能改变行动含义，就砍。ChatGPT 的代码解释器会把图直接画在对话里——让它每个决策画一张柱状或堆叠柱状就好。
问卷样本有偏（只活跃用户答了）怎么办？ —— readout 里明说：“这份问卷反映的是活跃用户；本报告任何内容都不能解读为对 churned 用户的表态。“然后另排一次 churned 用户的跟进。
模型一直从薄样本里 overclaim 怎么办？ —— 加：“基于 N<30 的发现，标题里必须含’仅方向性——样本不足以下置信结论’。任何小 N 发现不带这个 caveat 都不允许出现。“再跑。
CSV 太大传不上去怎么办？ —— ChatGPT 把单表卡在约 50MB，Claude 网页端拒绝超过约 30MB 的文件。问卷真到这个量级（几万行），导出前先筛到你真正要用的列，或用 MCP 把模型接到数据源、让它直接查询，而不是在一份快照上工作。
怎么把 readout 分享给团队？ —— 先发一页纸（文字）。然后做一次 20 分钟现场 walkthrough。不要做 30 页 slide——那正是你一开始想避免的失败模式。

TL;DR

任务场景

该用哪个工具

什么时候适合让 AI 来做

需要先给 AI 的信息

可直接复制的 Prompt

短版本——单题深读

输出示例

怎么改输出

容易踩的坑

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势