任务场景
你手里有一堆访谈转录、客服对话、问卷开放题或用户日记研究。需要识别反复出现的主题——用户口里的”那件事”——把几十小时对话变成一份站得住的编码、定义和代表语录。
哪些情况适合让 AI 来做
- 有 10-100 份转录,手工编码要几周。
- 已经有编码框架(开放、轴心、演绎),需要一致地应用。
- 想先有一份初稿,让研究员在上面打磨而不是从零开始。
- 团队需要更快的信号节奏推动产品决策。
什么时候不要完全依赖 AI
- 学术发表,方法论透明度有硬要求。
- 敏感话题(医疗、法律、受害陈述),误读语录有后果。
- 样本太小(5 份以内),手工更快更准。
- 模型训练数据不足的语种或文化背景。
需要先给 AI 的信息
- 保留说话人标签、匿名化的转录。
- 编码框架——预定义编码,或指示做开放编码。
- 一句话研究问题(“什么阻止新用户完成设置?”)。
- 之前类似数据的编码示例,作为锚定。
- 停用清单:太宽泛的编码(“用户反馈""一般评论”)。
可直接复制的 Prompt
你协助质性研究者做主题编码。
研究问题:{research_question}
编码方式:{open_or_axial_or_deductive}
预定义编码(如有):{predefined_codes}
停用清单:{stop_list}
历史编码示例:{exemplars}
待编码转录:
"""
{transcripts}
"""
输出:
1. 编码表:
- 编码名(2-4 词)
- 一句话定义
- 2 条原话支撑(含说话人 + 行号)
- 跨转录频次
2. 轴心段:哪些编码聚成 3-5 个上层主题。
3. 边界案例 3-5 条:难编的语录 + 你的判断理由。
4. 标记清单:信心 < 70% 的编码。
规则:
- 引用必须在原文中逐字出现,不许改写。
- 每条引用标说话人 + 行号。
- 不属于任何编码就放进"未编码——待人工"。
- 不能凭空造缺少 2 条以上支撑的编码。
建议让 AI 输出成什么样
编码表 + 主题聚类 + 边界案例 + 低信心标记。这和研究员在 NVivo、Dedoose、Atlas.ti 里建 codebook 的方式同构。
怎么判断 AI 的结果能不能用
- 随机抽 10% 段落自己复码,算简单一致率。
- 每条引用回查原文,是否一字不差、说话人对。
- 边界案例和同事讨论——分歧的地方往往是洞察。
- 频次理智检查:只出现一次的不是主题,是观察。
容易踩的坑
- 让模型造”听起来好”但没语录支撑的编码。
- 接受被改写过的引用——这种不能用在报告里。
- 因为模型”语气自信”就跳过编码者一致性。
- 编码太粗,所有主题都变成”用户希望体验更好”。
下一步怎么改得更好
围绕一个项目持续扩充 codebook。示例越多,模型和人类编码者一致率越高。按季度跟踪一致率,对外发布前争取 >80%。
FAQ
- AI 能替代质性研究员吗? 不能。它加速编码,但读不懂上下文、反讽和没说出口的话。
- 编码者一致性怎么算? 在 10% 样本上算 Cohen’s kappa 或简单一致百分比。
- 一次 prompt 喂哪些转录? 按用户分群或访谈轮次分组,保持上下文连贯。
- 多语数据怎么办? 用源语言编码,只在报告引用的语录上做翻译。