ChatGPT 回答慢和”卡住不出”是两件事。慢是 token 一个个吐出来但能完成、卡是发了请求几十秒没回。本文讲慢——按概率排序,原因依次是:会话太长 → 模型选重 → 网络延迟 → 服务器排队。
理解为什么慢:每一轮对话,服务端要把整段历史 + 你新一条 prompt 全部喂给模型,模型先 prefill(处理输入)再 decode(生成输出)。输入越长 prefill 越久;模型越重每 token 越慢;网络 RTT 越大 stream 表面看也越卡。
症状
- 一个字一个字往外蹦
- “Thinking” 卡 20 秒以上才开始输出
- 同一对话窗口,前面几轮快,越往后越慢
- App 慢、网页快(或反之)
- 同样的 prompt 早上快、下午慢
常见原因
按命中率从高到低:
1. 对话变长——每轮都重新处理全部历史
ChatGPT 是无状态的:服务端不”记得”你上一轮说了什么,每一轮把全部历史拼成 input 发给模型。50 轮往返之后,input 可能上万 token,prefill 耗时显著增加。GPT-5.5 在 4k input 时秒回,在 100k input 时 prefill 就要 10+ 秒。
如何判断:开个新对话,问同样的问题。秒回 = 是历史拖慢了。
2. 用了”重模型”做”轻任务”
简单任务(翻译、起标题、改错字)用 GPT-5 / o3 这种 reasoning 模型,它会先做内部”思考”再回答,比 GPT-5.4 慢 5–10 倍。
| 模型 | 速度 | 适合 |
|---|---|---|
| GPT-5.4 | 最快 | 日常聊天、翻译、改错 |
| GPT-5.5 | 快 | 写作、分析、轻代码 |
| GPT-5 | 中 | 长任务、复杂分析 |
| o1 / o3 reasoning | 慢(思考阶段静默) | 数学、推理、复杂代码 |
| GPT-5.5 image | 慢 | 出图 |
如何判断:模型 selector 当前是什么。如果是 o1 / o3,先切到 GPT-5.5 比较速度。
3. 网络层 RTT / VPN 节点远
OpenAI 主要服务在美东 / 美西。从亚洲 / 欧洲访问的 baseline RTT 就比美国本土用户高 100–200ms。叠加 VPN 节点选错(比如新加坡 → 法兰克福 → 美西),可能多 500ms。stream 看起来就是”一个个蹦”。
如何判断:浏览器 DevTools → Network → 抓包看响应首字节时间(TTFB)。> 1s 就是网络问题。
4. 北美工作时间服务器排队
美东时间周一到周五 9am–5pm(北京时间晚 9 点 – 次日清晨)是 OpenAI 最忙时段。免费档和较低档次的账号会被降权排队。
如何判断:换非高峰时段(北美晚上 / 周末)测同样 prompt,明显快 = 排队问题。
5. 对话内含大量文件 / 代码 / 表格
上传过几个大 PDF 或贴过几千行代码,每轮都会把这些 token 全部重处理。
如何判断:开新对话不挂任何文件,问简单问题,秒回 = 是附件 token 重。
6. 浏览器扩展拖慢渲染
某些隐私扩展、广告拦截、AI 增强扩展(Monica / Glasp 等)会在每条 message 上加监听器,message 多了渲染卡。
如何判断:无痕窗口(禁扩展)速度对比。
最短修复路径
按收益从高到低,前 2 步通常能解决:
Step 1:新开对话
最简单、最有效。Cmd/Ctrl + N(或左上角 “New chat”)。同样的 prompt 在干净的对话里通常快 3–10 倍。
如果你需要前面对话的上下文,挑出来关键 3–5 条,复制到新对话第一条消息里。
Step 2:切到匹配任务的模型
模型 selector 在聊天框上方:
| 你在做什么 | 切到 |
|---|---|
| 聊天 / 翻译 / 改错 / 起标题 | GPT-5.4 |
| 写作 / 分析 / 轻代码 / 摘要 | GPT-5.5 |
| 复杂推理 / 数学 / 长代码 | GPT-5 / o1(接受慢) |
| 出图 | GPT-5.5 image |
把 reasoning 模型留给真正需要的硬任务。
Step 3:换网络 / VPN 节点
桌面端开 DevTools → Network → 看 TTFB。
- TTFB > 1s → 网络层有问题
- 试切到手机 4G 热点比较
- VPN 用户切到地理上更近 OpenAI 区域的节点(美西 / 美东)
Step 4:关扩展 / 用无痕窗
无痕窗口(默认禁扩展)+ 关闭所有非必需扩展。
Step 5:避开高峰时段
如果你工作时间在北京时间晚 9 点 – 凌晨 3 点(对应美东工作时段),重度任务尽量挪到早晨完成。或升级到 Pro / Enterprise 档(这两档高峰排队优先级高很多)。
Step 6:拆任务
特别长的任务(500+ 行代码、1 万字翻译)拆成几次跑:每次只让模型处理 3–5k 字 / 100 行代码,明显比一次性快。
容易误判的情况
“慢”和”卡住”不一样。如果直接没输出(“Thinking” 60+ 秒后无任何 token),那是”一直 loading”,看 ChatGPT 一直 loading。
“慢但稳定输出”通常 5–30 秒内就能出第一段。
预防建议
- 每个话题新开对话——既省 context 也省时间
- 按任务难度选模型,别全用 reasoning 模型——日常 90% 任务 GPT-5.4 / 5.5 已经够
- 不要叠 VPN + 跨区域代理——每跳一次都增加延迟
- 重度任务避开北美工作时段,或升 Pro
- 长任务拆短跑——单次 prefill 越短越快
- 每完成一个工作流就开新对话,不要在一个对话里塞 100+ 条消息