你订阅了 Claude Pro 或 Team 套餐,发现”只生成了几次 PDF 就被限流了”,或者”让 Claude 帮我写完报告就触发了 usage limit”,但同样时间在对话区聊几小时却没事——这不是 Claude 在区别对待文件,而是 token 计费机制下,文件生成天然比聊天贵 5-20 倍。
理解这点的核心是:Claude 按 token 计费,不按”消息数”。对话里你看到的每一段 Claude 回复、每个 Artifact 里的代码、每次重新生成、甚至上下文里塞进去的历史,都算 token。文件生成把”几千字 / 几万行代码”一次性算进 output token,配额自然掉得快。
常见原因
按命中率从高到低:
1. 整份文件被算进 output token
让 Claude 输出一份 5000 字的英文报告 = 约 6500 output token(中文比例约 1 字 = 1.5-2 token)。如果是代码,1000 行 TypeScript 大约 8000-12000 token。一次”帮我写完整份”的请求,相当于聊天 50-100 轮。
如何判断:在 Claude 网页端 → Settings → Usage 里看 token 消耗曲线,文件生成那次的尖峰非常明显。
2. Artifact 重新渲染每次都重新计费
Artifact 不是”存好的快照”,每次你说”再改一下”它都会完整重输出整份内容(即使只改一行),每次都算一次 output token。改 5 次 = 5 倍 token 消耗。
如何判断:同一个 artifact 反复”再改改”,usage 上涨速度异常快。
3. 长对话每次都把整段历史回放
Claude 的请求是无状态的——每次发新消息,前端把整段对话历史(含所有 artifact 内容)一起发回去。聊到第 30 轮时,input token 可能已经超过 50K,每次发问都重复计这 50K。
如何判断:单次发问只有几十字但 usage 跳得很大,几乎肯定是历史在累积。
4. 引用了大文件 / 长 PDF
上传一个 100 页 PDF 让 Claude 总结,全文 token 化是 input 计费。如果对话继续,这份 PDF 每次都被带在上下文里——一个 80K token 的 PDF 聊 10 轮就用 800K input token。
如何判断:你最近上传过大文件,且后续对话越聊越慢、usage 越掉越快。
5. Extended Thinking 模式翻倍
Claude 的 extended thinking 会产生”内心独白”,这些虽然不显示但算 output token。开启 thinking 模式做复杂任务,output 可能是普通模式的 3-5 倍。
如何判断:你启用了”thinking”标识,且回答前有较长的 “thinking…” 时间。
6. 同一份 prompt 重试多次
不满意结果直接说”再来一遍”——每次重试都从 0 开始 input + 全新 output。3 次重试 = 3 倍 token。
如何判断:回看对话,最近是否有连续多次 regenerate。
最短修复路径
Step 1:两段式生成——先大纲,再扩写
不要一上来就说”写一份完整的 50 页竞品分析”。先:
prompt 1: 请给我这份竞品分析的大纲,分章节列出,
每章节 1-2 句话说明要覆盖什么。
确认大纲方向对了再:
prompt 2: 请按上面大纲第 1 章节展开,约 800 字。
prompt 3: 第 2 章节...
省 token 不说,方向错了也能早发现。
Step 2:修改 Artifact 用 “diff” 而非整份
不要说:把这段代码改成 ...(让 Claude 重输出整份)
而是说:在第 42-48 行之间插入这段:[code],其他不变。
请只回复修改的位置,不用重输出整份文件。
或者更简单:“输出 unified diff 格式”。
Step 3:长任务开新对话,不要 carry over
每完成一个大文件,开一个新对话再继续下一个。把上一份的关键结论用一两句话总结贴过来即可,不要复制粘贴整份历史。
具体阈值:当 input token > 30K 时(在 Settings → Usage 看),就该开新窗口了。
Step 4:大 PDF 用引用而非全量
低效:把 100 页 PDF 直接传,连续聊 20 轮
高效:传 PDF → 让 Claude 抽取关键事实生成摘要 → 关掉这个对话
→ 开新对话只贴摘要继续讨论
如果非要查原文,用 Projects 把 PDF 放进 Knowledge,按需检索而非每次都塞上下文。
Step 5:Thinking 模式只在必要时开
代码 debug / 数学证明 / 复杂规划再开 thinking;写邮件、起草大纲这类任务关掉,能省 60-80% output token。
Step 6:失败重试前先想清楚再说
不要直接”再来一遍”。先说”上一版的问题是 X,请只调整 X,其他保留”。最理想是用 “请只重写第 N 段,其他段落原样保留”——避免整份重生成。
预防建议
- 心里给每次任务建 token 预算:5K 字文件 ≈ 6.5K output token,按这个估每天能跑几次
- 大 Artifact 生成完立刻下载到本地,下次需要”引用”而不是”重新生成”
- Projects 比聊天省 token:知识库是缓存的,不会每轮重计
- Claude Pro / Team 每天 5 小时窗口,把生文件类高 token 任务集中在窗口开始时做,留余量应急
- 关闭不必要的 Extended Thinking
- 学会用 diff 表达修改,不要让 Claude 反复重输出整份