用 AI 把用户反馈聚类成可执行的主题

把 300-2,000 条 App 评价、NPS 评论或工单，整理成产品团队本迭代就能动手的 5-10 个主题。附 Prompt、核对清单与 2026 年 6 月工具选型。

发布于: 2026/05/17 更新于: 2026/06/09 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话结论

100-5,000 条短反馈，直接粘进 Claude（Sonnet 4.6，截至 2026 年 6 月为 1M token 上下文）或 ChatGPT Plus，让它产出 5-10 个带频次、严重度和逐字原文的命名主题。跑一遍约 30 分钟，就能拿到 80% 成型的主题树。
一个 20 美元/月的付费账号（Claude Pro 或 ChatGPT Plus）就够用。只有当反馈持续涌入、还要多人查询时，才需要专门平台（Dovetail 约 30 美元/人/月起，Thematic 企业版据称约 2.5 万美元/年起）。
输出能不能信，全看你验不验：随机抽 20 条核对归类、手算一个主题的频次、把原文重叠超过 30% 的两个主题合并。
以下情况别只靠 AI：要给董事会的统计数字、监管内容（医疗、金融），或者基本只有星级没有文字的反馈——模型会从噪音里编主题。

任务场景

你手头有 300-2,000 条原始反馈：App Store 评价、NPS 答复、Intercom 工单、问卷回复，而且周五就要交。产品团队要的是主题：用户到底在抱怨什么、最喜欢哪一点、哪些聚类值得改路线图。

一条一条看既慢，又会被声音最大的评论带偏。真正要做的是综合：去重、命名主题、统计频次、标严重度，最后给到 PM 一张能直接贴进路线图文档的表。

哪些情况适合让 AI 来做

反馈量在大约 100-5,000 条短文本之间、目标是看大致主题而非统计显著性时，AI 很合适。如今的模型擅长语义聚合、起名、抽代表性原文。

价值最大的是第一遍：用聊天模型跑半小时，得到的主题树人工再精修一小时就能用，比起人工逐条打标签的大半天，省得多。

什么时候不要完全依赖 AI

给董事会的统计数字。 如果一个数字要决定预算，就用表格去数，别在聊天框里数。模型只是估算频次，经常数错。
监管内容。 医疗、金融建议类反馈需要有人把关合规。
基本是空的反馈。 如果只有星级或表情，模型会从噪音里编主题。先筛出带文字的行。
小语种。 对模型支持较弱的语言，先用小样本试一下，再决定要不要信整批结果。

而且永远别让 AI 决定上什么功能。它不懂业务上下文，不知道营收权重，也看不到你的工程成本。

需要先给模型的信息

一行一条、已去掉完全重复项的反馈正文
可选元数据：星级、付费等级、日期、版本号
一句话产品上下文（这个应用是做什么的）
你要做的决定（比如优先修 Bug 还是上增长功能）

先去掉个人信息：姓名、邮箱、订单号都要匿名化再粘贴。如果实在没法去掉 PII，就用数据不参与训练的企业版或团队版，别用免费的消费者账号。

一次能放多少

截至 2026 年 6 月，瓶颈是数据本身，而不是模型的原始上下文窗口：

工具	单次舒适量	说明
Claude Pro（20 美元/月）	500-1,500 条短反馈	Sonnet 4.6 提供 1M token 上下文；到约 1,500 条短反馈质量仍稳
ChatGPT Plus（20 美元/月）	500-1,200 条短反馈	Plus 应用内上下文约 320 页；完整 1M 窗口要 200 美元的 Pro
文件上传（ChatGPT）	用 CSV 放更大批量	单条消息最多 20 个文件、每个 512MB / 200 万 token（截至 2026 年 2 月），但它会抽样而非逐行细读

超过约 1,500 条，就按时间或产品模块切片，每片各自聚类，最后再合并一次主题列表。

聚类 Prompt

这是主力工具。方括号里的占位符保留格式、换成你自己的内容，反馈粘在指定位置。

你是资深用户研究员。把下方反馈聚成 5-10 个 PM 本迭代就能行动的主题。

产品上下文：[一句话描述产品]
要做的决定：[我们要从中得出什么结论]

每个主题输出：
- 主题名（动作导向，最多 8 字）
- 通俗描述（1-2 句）
- 3 条代表性原文，逐字照抄
- 频次：大致数量和占总量的百分比
- 严重度：blocker / pain / nice-to-have，附一句理由
- 下一步建议：继续研究 / 修复 / 暂不处理

规则：
- 不要编造原文，只能引用反馈里实际出现的文字。
- 如果某主题支撑的评论不足 3 条，标为 "观察" 而非正式主题。
- 标出你无法确信归类的评论。

末尾给出 3 条 "意外发现"。

反馈：
[一行一条粘在这里]

“不要编造原文” 和 “标出无法归类的评论” 这两句很关键。少了它们，模型会把原文改写成意译（老板就没法核对），还会悄悄丢掉拿不准的评论。

PM 真正用得上的输出结构

让它先给 3 句话的总览，再给主题表，最后给意外发现。主题表是产出核心，要可扫读。严重度对齐团队已有的 triage 标签（P0/P1/P2，或 blocker/major/minor），工程师不用翻译就能直接接手。

怎么核对输出

验证这一步，决定了你拿到的是能用的分析，还是听起来很笃定的猜测。

核对归类。 随机抽 20 条，确认模型把每条放进了对的主题。错放超过两三条，说明主题定义太模糊，用更精确的主题名重跑。
手算一个频次。 挑那个会左右决策的主题，自己用表格筛选或 grep -ci "关键词" feedback.txt 数一遍。模型是估算，所以在你亲手验证一个之前，把它给的百分比都当估计值。
合并重叠。 两个主题如果有超过 30% 的原文重叠，那就是同一个主题，合并后重跑。
降级单薄聚类。 只靠 1-2 条原文撑着的主题就是噪音，放进 “观察” 列表，别占路线图一行。

什么时候该升级到 embedding 或专门平台

聊天框这套方法有上限。如果你每周都要对同一条反馈流聚类，或需要在上万条上得到可复现的聚类，就换成下面这类做法：

基于 embedding 的聚类（一个小脚本）：用 OpenAI text-embedding-3-small（截至 2026 年 6 月约 0.02 美元/百万 token）或 text-embedding-3-large（0.13 美元/百万 token）给每条反馈生成向量，跑 k-means 或 HDBSCAN，再让聊天模型给每个簇起名。Gemini Embedding 001 约 0.15 美元/百万 token。这样频次就精确了，聚类也能跨次复现。
专门平台，适合多人持续查询反馈的场景。Dovetail 约 30 美元/人/月起（自动接入数据的 Channels 是单独一项，约 50 美元/月），Thematic 走企业定价，据称底价接近 2.5 万美元/年。当反馈是每天的输入而非季度项目时，这笔钱才划算。

做一次性的 “周五出主题”，20 美元的聊天账号在速度和成本上都赢。要建长期反馈闭环，平台省下的分析人力就能抵回成本。

容易踩的坑

拆出 20 多个微主题，没人能跟进
丢掉严重度维度，所有项看上去同样紧急
不手算就信模型给的频次数字
中英混合反馈不告诉模型哪些是哪种语言
丢掉原文，老板无法核对每个聚类背后的真实声音

把闭环收口

把 Prompt、输入、输出一起存进同一个文件夹。每月用同一份 Prompt 重跑，主题就能纵向对比。某个 Top 主题进了路线图，就把原反馈 ID 一起带上，修复上线后回头通知这些用户。把这个环收上，聚类才从一次性练习变成留存动作。

FAQ

单次放多少条算太多？ 截至 2026 年 6 月，多数聊天模型一次处理 500-1,500 条短反馈都没问题。超过就按时间或产品模块切片再合并主题列表。上万条量级，换成基于 embedding 的聚类。

要先去重吗？ 要。完全相同的会拉偏频次，必须去掉。意思相近的（同一抱怨的不同说法）留着无妨，模型会正确归并，而且它们反映真实的量。

主题为什么出来很泛？ 几乎都是因为产品上下文和决策目标太含糊。“把这些评价聚类一下” 只会得到 “用户体验” 这种空话。补上一句明确的决策（“这季度该先修注册 Bug 还是做导出功能？”），主题立刻清晰。

把客户反馈粘进 ChatGPT 或 Claude 安全吗？ 先去掉 PII。消费者免费版的输入可能被用来改进模型，所以敏感内容请用团队版或企业版（业务数据不参与训练），并且无论如何都要把姓名、邮箱、ID 匿名化。

模型数频次准吗？ 不准，把它的数字当估计值。模型在计数时是估算。任何会左右真实决策的主题，都自己手算一遍。

一句话结论

任务场景

哪些情况适合让 AI 来做

什么时候不要完全依赖 AI

需要先给模型的信息

一次能放多少

聚类 Prompt

PM 真正用得上的输出结构

怎么核对输出

什么时候该升级到 embedding 或专门平台

容易踩的坑

把闭环收口

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势