用 AI 把用户反馈聚类成可执行的主题

把几百条 App 评价、NPS 评论或工单,整理成产品团队下周就能动手的 5-10 个主题。

任务场景

你手头有 300-2,000 条原始反馈:App Store 评价、NPS 答复、Intercom 工单、问卷回复。产品团队周五要主题:用户到底在抱怨什么、最喜欢哪点、哪些聚类值得排进路线图。

一条一条看既慢,又会被声音最大的评论带偏。真正要做的是综合:去重、命名主题、统计频次、标严重度,最后给到 PM 能直接贴进文档的版本。

哪些情况适合让 AI 来做

如果反馈量在 100-5,000 条短文本之间,目标是看大致主题而不是统计显著性,AI 很合适。模型擅长语义聚合、起名、抽代表性原文。

第一遍尤其好用:用 AI 半小时基本能完成 80% 的主题树,剩下交给人精修。

什么时候不要完全依赖 AI

涉及医疗、金融建议等监管内容时不要单靠 AI;要拿到董事会用的统计数据时不行;模型对该语种支持差时也不行(比如方言混合的语料)。

非常短的反馈(只有星级、表情)也要小心,模型会从噪音里编主题。AI 也不该独自决定上什么功能——它不懂业务上下文。

需要先给 AI 的信息

  • 一行一条、已去重的反馈正文
  • 可选:星级、付费等级、日期、版本号
  • 一句话的产品上下文(这个应用是做什么的)
  • 你要做的决定(修 Bug 优先还是上增长功能等)

粘贴前去掉个人信息:姓名、邮箱、订单号都匿名化。

可直接复制的 Prompt

你是资深用户研究员。把下方反馈聚成 5-10 个 PM 能立刻行动的主题。

产品上下文:{one_sentence_about_product}
要做的决定:{what_we_will_decide_from_this}

每个主题输出:
- 主题名(动作导向,最多 8 字)
- 通俗描述(1-2 句)
- 3 条代表性原文(逐字引用)
- 频次:大致数量和占比
- 严重度:blocker / pain / nice-to-have,并附一句理由
- 下一步建议(继续研究 / 修复 / 暂不处理)

末尾给出 3 条 "意外发现" 总结。

反馈:
{paste_feedback_here}

建议让 AI 输出成什么样

先 3 句话的总览,再主题表,最后意外发现。主题表是产出核心,要可扫读。严重度尽量对齐团队已有的 triage 标签,工程师能直接接手。

怎么判断 AI 的结果能不能用

随机抽 20 条,看 AI 的归类是否合理。两个主题如果有 30% 以上的原文重叠,就合并。只有 1-2 条原文撑着的主题不算聚类,放进观察列表。

再用表格或 grep 手算一个主题的频次,看 AI 给的数字差多少。

容易踩的坑

  • 拆出 20 多个微主题,没人能跟进
  • 没有严重度维度,全部看上去同样紧急
  • 不验证就信模型给的频次百分比
  • 中英混合反馈不告诉模型哪些是哪种语言
  • 丢掉原文,老板无法核对每个聚类背后的真实声音

下一步怎么改得更好

把 Prompt、输入、输出一起存档。每月用同一份 Prompt 重跑,主题就能纵向对比。Top 主题进路线图时,把原反馈 ID 一起带上,修复上线后能回头通知用户,形成闭环。

FAQ

  • 多少条算太多?常见模型能一次处理 500-1,500 条短反馈,超过这个量就按时间或产品模块切片,再合并主题。
  • 要先去重吗?要。完全相同的会拉偏频次,意思相近的让模型自己合并即可。
  • 结果太泛怎么办?通常是因为没给产品上下文和决策目标。补上之后主题立刻具体。

相关阅读

需要 Prompt 变体和细节,看 用户反馈聚类 Prompt 合集。要新的信号来源时,参考 AI 帮你做客户访谈问题

标签: #数据分析 #工作流 #研究