多大样本值得用 AI？

开放题 200+ 起。再少自己读更快也更准。

哪个模型一次能吃下最多答案？

截至 2026 年 6 月，Claude Opus 4.7、Sonnet 4.6、Gemini 3.1 Pro 都是 100 万 token，约几千条短答案一次过。ChatGPT Plus 在 App 内约 320 页；完整 100 万上下文要 200 美元 Pro 档。

要先匿名化吗？

要——贴进去前去掉姓名、公司及一切可识别信息。

为什么每次跑出来的主题都不一样？

LLM 聚类本就不确定。调低温度、用 Thinking 或 Opus 模型、重跑两次。稳定的主题留下，不稳定的淘汰。

怎么诚实地报告？

每次都先报样本量、回收率、分群说明。

能把问卷主题和访谈主题合在一起吗？

可以，但先各自建 codebook 再对齐。

AI 场景化应用

AI 分析问卷开放题：500+ 自由文本聚成可解释的主题

Q: 怎么诚实地报告？

每次都先报样本量、回收率、分群说明。

2026 年 6 月可复用流程：用 Claude 或 ChatGPT 给问卷开放题聚类，主题可核实、引用可追溯，并控制多次跑结果的漂移。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

把清洗好的开放题贴进一个长上下文模型，配合下面的 prompt，强制它输出带逐字引用和 response_id 的主题表，再人工核对 10-15 条归属，才能相信任何计数。截至 2026 年 6 月，Claude（Opus 4.7 / Sonnet 4.6，100 万 token 上下文）和 Gemini 3.1 Pro（100 万）能一次装下几千条短答案；ChatGPT Plus 在 App 内大约只能吃到 320 页。难点不在聚类本身，而在证明这些聚类是真的、且多次跑还稳定。

任务场景

你跑了一份问卷，“哪里需要改进""最近一次让你抓狂的场景”这类开放题收回几百到几千条。手工数不可能，但这一张主题图会决定接下来一季的产品或运营动作。你需要经得起一个挑剔的老板追问的聚类。

哪些情况适合让 AI 来做

有 200-5000 条开放题，要在一天内出结构。
答案较短（5-100 字），主要 1-2 种语言。
想要初稿聚类再人工打磨，而不是当成最终结论。
每次问卷后都要重跑同一套分析，主题命名要能对齐。

一个实用的规模估算：短开放题每条大约 7-130 个 token，所以 2000 条答案合计约 6 万-12 万 token，能舒舒服服地一次塞进 Claude Opus 4.7、Sonnet 4.6 或 Gemini 3.1 Pro 的 100 万 token 上下文。超过 3000 条时，按每批 500-800 条分批跑、再合并 codebook，别一次性贴一大坨——容易触发”中间内容被忽略”的漏读。

什么时候不要完全依赖 AI

样本太小（50 条以内）——自己读更快也更准。
敏感话题（心理健康、骚扰、裁员），误读会造成真实伤害。
要在董事会或监管面前答辩的战略决策，每个主题都得有可追溯的证据链。
多语种数据，模型对各语言覆盖不均。

先选对工具

只跑一次，用长上下文的聊天模型最省钱；要做成带看板、能追趋势的常态化项目，专用平台才值回票价。截至 2026 年 6 月：

工具	适合	关键点
Claude（Pro 20 美元/月）	一次性深度聚类、长数据集	Opus 4.7 / Sonnet 4.6，100 万 token 上下文；逐字引用纪律强
ChatGPT（Plus 20 美元/月）	快速分析、混合团队	默认 GPT-5.5；App 内上下文约 320 页，完整 100 万只在 200 美元 Pro
Gemini 3.1 Pro（Google AI Pro 19.99 美元/月）	表格数据、100 万上下文	紧挨着你的 Google Sheets 导出
Thematic / Kapiche	常态化的 CX 反馈项目	NLP 自动发现主题、趋势看板，免写 prompt
Dovetail / ATLAS.ti	问卷+访谈混合的资料库	可审计的编码轨迹，适合学术或受监管场景

如果这是你的第一波或唯一一波问卷，先用 Claude 或 ChatGPT 配下面的 prompt；只有当你要按月重跑时，再换专用平台。

需要先给 AI 的信息

清洗、去重、过滤垃圾后的答案。
每一行都带 response_id，让每条引用都能回溯。
问卷题目原文——聚类高度依赖问题本身。
预期主题数（一般 5-12）。
禁用主题清单（“其他反馈""一般评论”）。
如果要分群对比，附上每条答案的人群标签（岗位、地区、付费层级）。

可直接复制的 Prompt

把每个 [方括号] 占位符换成你自己的内容。给每条答案标 response_id（R001、R002……），模型才能逐条引用。

你是研究分析师，对自由文本问卷答案做聚类。

问卷题目：[survey_question]
答案条数：[n]
预期主题数：[expected_themes]
禁用主题：[stop_list]
分群标签（如有）：[segments]

答案：
"""
[每行一条，每条前面带它的 response_id]
"""

输出：
1. 主题表：
   - 主题名（3-6 字，具体）
   - 一句话定义
   - 3-5 条逐字原文支撑，每条带 response_id
   - 计数 + 占比
2. 分群表（如有标签）：每群的主题占比。
3. 长尾段：5-10 条没归入任何主题的答案 + 你的说明。
4. 信心标记：支撑少于 5 条的主题标 [weak]。

规则：
- 引用必须逐字，绝不改写。
- 每条引用都注 response_id。
- 主题计数总和 = 答案总数 - 长尾。
- 不能造少于 3 条支撑的主题。
- 主题互斥——每条答案只入一个主题。

为了可复现，把模型调到波动最小的模式：API 里用低温度（0-0.2）；ChatGPT 里用 Thinking 模型，Claude 里用 Opus 4.7。创造性设得越高，多次跑之间的漂移越大，而漂移正是这里的大敌。

怎么判断 AI 的结果能不能用

这一步多数人会跳过，可它恰恰是你和一张”自信但错误”的幻灯片之间唯一的屏障。

随机抽 10-15 条引用，对照原始行核对归属对不对。
确认主题计数加长尾等于总数。对不上，说明模型漏算或重复算了。
重跑同一 prompt 再比较。LLM 主题编码的同行评审研究（arXiv 2506.14634）发现，类别和单条归属会在不同次跑之间变动，所以漂移大不是噪声，而是聚类弱的信号。
把主题名给一个没看过数据的同事。如果他猜不出每个主题装的是哪类评论，说明标签太空。

风险高的场景，把模型当成一个编码员，让真人独立编一份样本，再比一致性（Cohen’s Kappa）。已发表的研究显示，prompt 写得好的 LLM 能达到人类众包标注者的一致性水平，但前提是 codebook 清晰、定义明确。

容易踩的坑

让模型硬套你预设的主题，而不是让聚类自然涌现。
一条归属都不验证就直接信计数。
把自选样本的百分比当代表性数据来报。
只跑一次就交付——一次只是草稿，不是结论。
忽略长尾——有时候下一个产品点子就藏在那里。

让各波分析可对比

每轮问卷把主题表存成 codebook，下次作为预定义主题喂回去，跨季度趋势线才可对比，同时允许冒出一两个新主题。跟踪主题随时间的体量——上升中的主题，即便还不是多数，也值得提前关注。

FAQ

多大样本值得用 AI？ 开放题 200+ 起。再少自己读更快也更准。
哪个模型一次能吃下最多答案？ 截至 2026 年 6 月，Claude Opus 4.7、Sonnet 4.6、Gemini 3.1 Pro 都是 100 万 token，约几千条短答案一次过。ChatGPT Plus 在 App 内约 320 页；完整 100 万上下文要 200 美元 Pro 档。
要先匿名化吗？ 要——贴进去前去掉姓名、公司及一切可识别信息。
为什么每次跑出来的主题都不一样？ LLM 聚类本就不确定。调低温度、用 Thinking 或 Opus 模型、重跑两次。稳定的主题留下，不稳定的淘汰。
怎么诚实地报告？ 每次都先报样本量、回收率、分群说明。
能把问卷主题和访谈主题合在一起吗？ 可以，但先各自建 codebook 再对齐。

一句话总结

任务场景

哪些情况适合让 AI 来做

什么时候不要完全依赖 AI

先选对工具

需要先给 AI 的信息

可直接复制的 Prompt

怎么判断 AI 的结果能不能用

容易踩的坑

让各波分析可对比

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势