AI 能替代质性研究员吗？

不能。它能加速编码，但读不懂上下文、反讽和没说出口的话。那些 κ = 0.84-0.91 的结果，全都建立在人类定义的框架和一份人工编码的验证样本之上。

该用哪个模型？

任何 1M 上下文模型都行（Claude Opus 4.7、Gemini 3.1 Pro、GPT-5.5）。在 2025 年 12 月那项基准里，Gemini 版本的 kappa 最高（0.907 对 0.853 对 0.842），但差距很小；跨轮次的一致性比选哪个模型更重要。

Cohen's kappa 怎么算？

在同一份 10% 样本上，把你的编码与模型的编码做成混淆矩阵，再用任意统计包计算（Python 里 `scipy.stats.cohen_kappa_score`，R 里 `irr` 包）。NVivo 和 Dedoose 会替你算。

一次 prompt 喂几份转录？

按受访者分群或访谈轮次分组，控制在 5-10 份，哪怕窗口装得下更多。质量在到达 token 上限之前就会下滑。

多语数据怎么办？

用源语言编码，只在报告里要引用的语录上做翻译——绝不要先翻译，因为翻译会抹掉你正要编码的那层细微差别。

AI 场景化应用

AI 质性编码：像受训研究者一样给转录打码

用 AI 对访谈转录做开放编码和轴心编码，跑多轮取共识，再用 Cohen's kappa 对照 10% 人工样本，把幻觉编码挡在结论之外。

发布于: 2026/05/17 更新于: 2026/06/06 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话结论

一个长上下文模型（Claude Opus 4.7、Gemini 3.1 Pro 或 GPT-5.5，截至 2026 年 6 月都是 1M token）能在几分钟内、而不是几天内，从访谈转录里跑出第一版 codebook。问题在于：单跑一次的结果还不够可靠到能拿去发表。把同一个 prompt 跑 3-5 遍，只保留反复出现的编码，再拿结果对照你人工编过的 10% 样本算 Cohen’s kappa。2025 年 12 月一项研究（arXiv 2512.20352）显示，集成式 LLM 主题分析能达到 κ = 0.84-0.91——在 Landis & Koch 量表上属于”几乎完全一致”——而每份转录的成本大约 0.15-0.20 美元，人工编码则要 20-40 美元。把 AI 当成跑得快的”第一编码者”，而不是最终拍板的人。

任务场景

你手里有一堆访谈转录、客服对话、问卷开放题或用户日记研究。你要从中找出反复出现的主题——用户口里的”那件事”——把几十小时对话变成一份站得住脚的编码、定义和代表性语录，能在汇报或论文里被质疑时撑得住。

哪些情况适合让 AI 来做

有 10-100 份转录，手工编码要好几周。
你已经有一套编码框架（开放、轴心或演绎），想在每一份转录上一致地套用。
你需要一份初稿，让研究员在上面打磨，而不是从零开始。
团队需要在两个研究周期之间更快拿到信号，好推动产品决策。

什么时候不要完全依赖 AI

学术发表：方法论透明度和可审计的痕迹是硬要求，多数期刊仍要求人工核验过的 codebook。
敏感话题（医疗、法律、受害陈述）：误读一句语录会有真实后果。
样本太小（5 份以内）：手工编码更快也更准，而且模型上下文太少，泛化不出来。
模型训练数据稀薄的语种或文化背景：俚语和反讽会被抹平。

需要先喂给模型的信息

转录本身，保留说话人标签，并先匿名化（粘贴前去掉姓名、邮箱、雇主等标识）。
编码框架——一份预定义编码清单，或一句”做开放编码”的指示。
一句话研究问题（“什么阻止新用户完成初次设置？”）。
你之前是怎么编同类数据的，给两三个好的范例。范例能明显拉高一致率。
停用清单：太宽泛、没用的编码（“用户反馈""一般评论”）。

一个 prompt 能塞多少

一份 60 分钟的访谈转录大约 8,000-12,000 词，约合 11,000-16,000 token。1M 的窗口理论上能一次装下 40-60 份转录，但质量在远未到上限时就开始下滑——模型会跟丢行号引用，还会把不同说话人混在一起。每轮控制在 5-10 份，按受访者分群或访谈轮次分组，再把各自的 codebook 合并。在 ChatGPT Plus 上，应用内可用上下文更接近 320 页（完整 1M 仅在 200 美元的 Pro 档位提供，截至 2026 年 6 月），所以那里要切得更小。

可直接复制的 Prompt

把每个 [方括号] 占位符替换成你自己的内容再发送。

你在协助一位质性研究者做主题编码。

研究问题：[research_question]
编码方式：[开放 / 轴心 / 演绎]
预定义编码（如有）：[predefined_codes]
停用清单（绝不使用的编码）：[stop_list]
历史数据的编码范例：[exemplars]

待编码转录：
"""
[transcripts]
"""

输出：
1. 编码表：
   - 编码名（2-4 个词）
   - 一句话定义
   - 2 条逐字原话支撑（含说话人 + 行号）
   - 跨转录的出现频次
2. 一段轴心分析：哪些编码聚成 3-5 个上层主题。
3. "边界案例"清单 3-5 条：难以归类的语录，附上你的判断理由。
4. 标记清单：任何你信心低于 70% 的编码。

规则：
- 引用文本必须在原文中逐字出现，不许改写。
- 每条引用都标注说话人和行号。
- 不属于任何编码的语录，归入"未编码——待人工核验"。
- 不要造出支撑语录少于 2 条的编码。

跑三到五遍，别只跑一遍

只跑一遍，是 AI 编码不可靠的最大来源。同一份转录喂给同一个模型两次，得到的编码集会略有不同——这个波动本身就是信号。已发表的集成方法在 temperature 0 下把每份转录跑 3-6 遍，只保留在多数轮次里都出现的编码。在某一轮出现、下一轮就消失的编码，正是你要在它进入分析之前剔掉的幻觉。

实操步骤：

在同一批数据上把 prompt 跑 3-5 遍。
保留多数轮次都出现的编码，其余隔离待查。
自己人工编码随机抽取的 10% 段落。
在同一份 10% 样本上，算你的编码与模型共识编码之间的 Cohen’s kappa。
若 κ 低于 0.61，收紧定义和停用清单，再重跑。

“一致性好”到底意味着什么

Cohen’s kappa 会扣除碰巧一致的部分。标准参照是 Landis & Koch（1977）量表：

Kappa (κ)	解读	能发表吗？
0.81 - 1.00	几乎完全一致	可以，需人工抽查
0.61 - 0.80	高度一致	内部汇报可用
0.41 - 0.60	中等一致	先打磨 codebook
0.21 - 0.40	一般	不要依赖
0.00 - 0.20	轻微	重新人工编码

在 arXiv 2512.20352 这项针对一份艺术治疗访谈转录的研究里（2025 年 12 月），集成方法用 Gemini 2.5 Pro 达到 κ = 0.907，用 GPT-4o 达到 0.853，用 Claude 3.5 Sonnet 达到 0.842——全部落在”几乎完全一致”区间。那是当时在线的模型版本；2026 年 6 月的后继版本（Gemini 3.1 Pro、GPT-5.5、Claude Opus 4.7 / Sonnet 4.6）更强，所以这些数字可以当作保守下限看待。该研究还用了双重指标：用 kappa 衡量标签一致，用余弦相似度（92-95%）衡量语义一致——因为两个编码者可能选了不同标签，意思却一样。

成本与工具对比

省钱省时，才是团队一开始就去找 AI 编码的原因。截至 2026 年 6 月：

方式	每份转录成本	速度	备注
人工编码	20-40 美元	数小时	黄金标准；那 10% 核验就靠它
LLM 集成（API）	约 0.15-0.20 美元	数分钟	temperature 0 下跑 3-5 遍
NVivo（AI 插件）	约 295-595 美元/年授权	不定	可追溯、导出强；AI 仅辅助
ATLAS.ti AI Lab	约 395-595 美元/年授权	不定	”AI 辅助的人工”；一级编码仍要自己筛
Dedoose	14.99 美元/月	不定	云端、混合方法，适合远程团队

专业 QDA 软件（NVivo、ATLAS.ti、Dedoose）在你需要可审计痕迹、需要期刊级可追溯性时仍然胜出。裸跑模型则在”早期信号”上靠速度和成本取胜。如今很多团队两者都用：模型跑第一版，再用 QDA 工具来记录和支撑最终的 codebook。

怎么核查模型的输出

逐条核验每句引用确实出现在转录里、且归到了对的说话人。幻觉就藏在这里——模型会信心十足地编出一句听起来很像真的话。
对频次做理智检查：只出现一次的是观察，不是主题。
让同事一起压测边界案例。分歧的地方，往往就是洞察所在。
确认模型遵守了停用清单；批量越大，它越容易漂回那些宽泛编码。

容易踩的坑

prompt 只跑一遍，就把输出当定稿。永远要做集成。
接受被改写过的引用——它们没法用在报告里，而且是捏造的危险信号。
因为模型”语气自信”就跳过 kappa 核查。
编码层级太粗，结果每个主题都糊成”用户希望体验更好”。
把 40 份转录塞进一个 prompt 还相信它给的行号；切小一点。

FAQ

AI 能替代质性研究员吗？ 不能。它能加速编码，但读不懂上下文、反讽和没说出口的话。那些 κ = 0.84-0.91 的结果，全都建立在人类定义的框架和一份人工编码的验证样本之上。
该用哪个模型？ 任何 1M 上下文模型都行（Claude Opus 4.7、Gemini 3.1 Pro、GPT-5.5）。在 2025 年 12 月那项基准里，Gemini 版本的 kappa 最高（0.907 对 0.853 对 0.842），但差距很小；跨轮次的一致性比选哪个模型更重要。
Cohen’s kappa 怎么算？ 在同一份 10% 样本上，把你的编码与模型的编码做成混淆矩阵，再用任意统计包计算（Python 里 scipy.stats.cohen_kappa_score，R 里 irr 包）。NVivo 和 Dedoose 会替你算。
一次 prompt 喂几份转录？ 按受访者分群或访谈轮次分组，控制在 5-10 份，哪怕窗口装得下更多。质量在到达 token 上限之前就会下滑。
多语数据怎么办？ 用源语言编码，只在报告里要引用的语录上做翻译——绝不要先翻译，因为翻译会抹掉你正要编码的那层细微差别。

一句话结论

任务场景

哪些情况适合让 AI 来做

什么时候不要完全依赖 AI

需要先喂给模型的信息

一个 prompt 能塞多少

可直接复制的 Prompt

跑三到五遍，别只跑一遍

“一致性好”到底意味着什么

成本与工具对比

怎么核查模型的输出

容易踩的坑

FAQ

相关阅读

相关文章

用 AI 写 A/B 测试总结

用 AI 写图表 Takeaway：把截图变成一句紧凑的结论

AI 竞品对比表：拼出经得起追问来源的对比矩阵

用 AI 写仪表盘周 takeaway

用 AI 解读 A/B 实验：显著性、SRM、效应量

用 AI 做财务趋势分析：识别营收、成本、毛利的真趋势