本文覆盖什么
PM 现在在 Claude 和 Codex 之间挑同一周的活——写 PRD、整 JIRA backlog、清那篇八个作者写过的文档。营销话术里它俩听起来差不多,实际并不一样。这篇是三件真活的对照、谁赢在哪、以及怎么选才不会每周一又重新讨论一遍。
这篇适合谁
已经用其中一个、隐约觉得另一个在某个环节更好的 PM;要在多个团队跑 grooming 的 TPM、PgM;兼职做 PM 的创始人——他们不想为了一个流程多养一份订阅。
什么时候适合用
本周日历上真的有任务时用。挑一份 PRD、一个 backlog、一篇文档,同一个 prompt 跑两个模型。空对空比较只会绕;用真活跑对照一小时就出结论。
开始前准备
- 准备三份真东西:一份没写完的 PRD、一个有 30+ 条陈年票的 backlog、一篇要砍 40% 长度的文档。模糊的对照 prompt 只换来模糊结论。
- 给”省时间”下个定义:少 token / 少返工 / 少跟工程拉锯 / 少编辑时间。挑一个指标,其他变量保持不变。
- 团队 voice 或 PRD 模板准备好做附件。没 voice 锚两个模型都会跑偏;公平比较的前提是两边都用同一份锚。
- 留 90 分钟——每件事 30 分钟。再少就是在比”感觉”了,不是行为。
一步一步操作
- 写 PRD。 同一份没写完的 PRD 各贴一份,prompt 都一样:“收紧问题陈述、加一节风险、给三条可量化成功指标”。Claude 散文更紧、风险更尖;Codex 标题更结构化、指标更激进。按你团队 review 的风格挑。
- 整 JIRA。 30 条陈年票导成文本。各问:“分成保留 / 合并 / 关闭,每条一行理由,标重复”。Claude 很少主动关;Codex 关得自信但偶尔错。Codex 的关闭挨个核一遍,Claude 的合并更敢直接信。
- 文档清洗。 八作者那篇贴进去,问:“砍 40% 不丢内容、合并冗余段、标缺来源的句”。Claude 赢在压缩时口吻一致;Codex 赢在结构重排。你这篇更需要重排就偏 Codex。
- 速度和成本。 各计时、各看 token。今天差不多,但每家都按季度调价/调能力——记得复测。
- 失败模式。 Claude 会软化强结论;Codex 会编缩写。两个都能 prompt 矫正,但下一个任务都会再犯。
- Claude 侧搭 Claude Projects;Codex 侧绑在 IDE 后面——切来切去本身就是成本。
第一次跑的练习
- 拿这周真要写的那份 PRD,同一个收紧 prompt 跑两个模型,都计时。
- 让同事盲读两份输出。他的偏好是数据点,你的是偏见。
- backlog 同理。重点看 Codex 的误关。
- 三件真活跑完,你会得到一张 3×2×偏好的矩阵。按多数票挑,别凭直觉。
质量检查
- 赢的那个真省时间了吗,还是只是看起来好看、回头还得自己改?省时间才是判据。
- 清洗过程中信息丢了没?跟原文 diff 一下被砍的段。
- 口吻跟团队对得上吗?对不上说明 voice 锚太薄。
怎么复用这个流程
- 留一份
pm-bench.md,里头放 3 件标杆任务。季度复测一次,模型会变,结论会过期。 - 每个任务、每个模型的最佳 prompt 都存下来。prompt 不对会让对的模型显得差。
- 团队层面推广就两个 PM 一起跑一次 bench,矩阵共享。标准化比个人偏好强。
- 团队也用这两个模型写代码的,搭 Claude Code vs Codex 对照 一起看。
推荐流程
季度初跑一次 3 任务 bench → 每件事定一个默认模型 → 整季度都用这个默认 → 下季度边界再 bench。一周中间别来回切,切的上下文成本比那点边际质量提升大。
容易踩的坑
- 拿玩具任务比。信号在真 PRD、真 backlog、真文档里。
- 两个模型用不同 prompt。prompt 本身是测试的一部分,必须保持一致。
- voice 文件偷懒。没锚的话两个都会变成”任意 PM 工具”那个味。
- 任务中途换模型。跨模型续写会比单一模型漂得更快。
- 每月都跑一次 bench。季度够了;每周跑就是变相拖延。
FAQ
Q:PM 该用 Claude 还是 Codex? A:单挑没赢家——按任务挑。Claude 偏散文紧凑、压缩文档时口吻一致,PRD 收紧和文档清洗赢;Codex 偏结构重排、JIRA triage 关得激进,backlog 整理和标题骨架赢。同一周里两边都用很常见。
Q:能更省钱地两个都用吗? A:有团队写作流挂 Claude、IDE 里挂 Codex 做 ticket。两份订阅未必比一份便宜,但流程契合度在 PM 这量级比钱重要——一周省两小时编辑时间通常就值回 20 美元订阅。
Q:那 Gemini 呢? A:Gemini 强在 Workspace 深度集成(Drive / Docs / Gmail)——PRD 直接落地到 Docs 协作时比 Claude / Codex 顺。但散文质量和 triage 能力本文专比 Claude 和 Codex,Gemini 不在范围内。
Q:这套结论下季度还成立吗?
A:部分单元会变。Claude 软化结论 / Codex 编缩写这类失败模式相对稳定;速度、token 成本、JIRA triage 准度会随版本更新。每 12 周用同一份基准任务复测一次,留个 pm-bench.md 记录结论。