任务场景
你手头有 300-2,000 条原始反馈:App Store 评价、NPS 答复、Intercom 工单、问卷回复。产品团队周五要主题:用户到底在抱怨什么、最喜欢哪点、哪些聚类值得排进路线图。
一条一条看既慢,又会被声音最大的评论带偏。真正要做的是综合:去重、命名主题、统计频次、标严重度,最后给到 PM 能直接贴进文档的版本。
哪些情况适合让 AI 来做
如果反馈量在 100-5,000 条短文本之间,目标是看大致主题而不是统计显著性,AI 很合适。模型擅长语义聚合、起名、抽代表性原文。
第一遍尤其好用:用 AI 半小时基本能完成 80% 的主题树,剩下交给人精修。
什么时候不要完全依赖 AI
涉及医疗、金融建议等监管内容时不要单靠 AI;要拿到董事会用的统计数据时不行;模型对该语种支持差时也不行(比如方言混合的语料)。
非常短的反馈(只有星级、表情)也要小心,模型会从噪音里编主题。AI 也不该独自决定上什么功能——它不懂业务上下文。
需要先给 AI 的信息
- 一行一条、已去重的反馈正文
- 可选:星级、付费等级、日期、版本号
- 一句话的产品上下文(这个应用是做什么的)
- 你要做的决定(修 Bug 优先还是上增长功能等)
粘贴前去掉个人信息:姓名、邮箱、订单号都匿名化。
可直接复制的 Prompt
你是资深用户研究员。把下方反馈聚成 5-10 个 PM 能立刻行动的主题。
产品上下文:{one_sentence_about_product}
要做的决定:{what_we_will_decide_from_this}
每个主题输出:
- 主题名(动作导向,最多 8 字)
- 通俗描述(1-2 句)
- 3 条代表性原文(逐字引用)
- 频次:大致数量和占比
- 严重度:blocker / pain / nice-to-have,并附一句理由
- 下一步建议(继续研究 / 修复 / 暂不处理)
末尾给出 3 条 "意外发现" 总结。
反馈:
{paste_feedback_here}
建议让 AI 输出成什么样
先 3 句话的总览,再主题表,最后意外发现。主题表是产出核心,要可扫读。严重度尽量对齐团队已有的 triage 标签,工程师能直接接手。
怎么判断 AI 的结果能不能用
随机抽 20 条,看 AI 的归类是否合理。两个主题如果有 30% 以上的原文重叠,就合并。只有 1-2 条原文撑着的主题不算聚类,放进观察列表。
再用表格或 grep 手算一个主题的频次,看 AI 给的数字差多少。
容易踩的坑
- 拆出 20 多个微主题,没人能跟进
- 没有严重度维度,全部看上去同样紧急
- 不验证就信模型给的频次百分比
- 中英混合反馈不告诉模型哪些是哪种语言
- 丢掉原文,老板无法核对每个聚类背后的真实声音
下一步怎么改得更好
把 Prompt、输入、输出一起存档。每月用同一份 Prompt 重跑,主题就能纵向对比。Top 主题进路线图时,把原反馈 ID 一起带上,修复上线后能回头通知用户,形成闭环。
FAQ
- 多少条算太多?常见模型能一次处理 500-1,500 条短反馈,超过这个量就按时间或产品模块切片,再合并主题。
- 要先去重吗?要。完全相同的会拉偏频次,意思相近的让模型自己合并即可。
- 结果太泛怎么办?通常是因为没给产品上下文和决策目标。补上之后主题立刻具体。
相关阅读
需要 Prompt 变体和细节,看 用户反馈聚类 Prompt 合集。要新的信号来源时,参考 AI 帮你做客户访谈问题。