ChatGPT 的 vision(GPT-5.5 / 5 系视觉)是真有用,但有损:图片会被先压缩到模型最大 tile 尺寸(通常长边 ≤ 2048px)再处理,小字 / 低对比 / 复杂图表都可能读错。“看不懂”很少是模型完全失明,多数情况是分辨率 + 提示词共同造成的精度不足。先把图传清楚,再用定向 prompt 把注意力引到正确区域,绝大多数误读都能修。
常见原因
按命中率从高到低:
1. 图片分辨率太低 / 被压缩
最常见。手机截图发到微信再下载下来已经是缩略图,长边 < 800px。文字一糊就读错。
如何判断:在 ChatGPT 里点图查看原始大小,长边 < 1024px = 概率高。重传原图(不要走过任何压缩中转)。
2. JPEG 压缩 / 模糊让小字读错
JPEG 在小字 / 边缘处有 ringing artifact,OCR 把”和”读成”知”、“5”读成”6”。
如何判断:图里小字(< 12pt 字号)读错最多 = 压缩问题。换 PNG 重传。
3. 深色模式截图对比度低
深色背景 + 深灰字(IDE / Notion 默认配色)vision 模型识别率显著下降。
如何判断:明色模式重截一份对比,识别准确率明显提高 = 对比度问题。
4. Prompt 没指明要抽取什么
“看一下这张图” → 模型给个大概描述,没读具体内容。“读出 y 轴所有刻度数字” → 它强制扫描那个区域。
如何判断:你的 prompt 只是”看 / 描述 / 这是什么” = 太空。
5. 图表 / 数据视觉本身缺要素
没标轴、没图例、颜色相近、堆叠柱重叠——人类也很难判,模型同样判错。
如何判断:拿你的图给同事一秒钟看,他也不能直接读出数字 = 图本身信息密度不够。
6. 手写 / 古字 / 罕见字体
vision 对手写、繁体、日文汉字、行楷的识别远低于印刷体。
如何判断:识别率 < 50% 且都是这类内容 = 当前模型能力边界,先转印刷 / 转录。
7. 屏幕反光 / 透视拍摄
手机拍电脑屏幕带摩尔纹、拍纸文件有透视形变。
如何判断:图里有规律性条纹 / 文字不水平 / 高光斑点 = 拍摄问题。直接截图或正面拍。
动手前先确认
- 确认问题是在普通对话、Project,还是 Custom GPT 里出现;vision 在三者里能力一致但配额可能不同。
- 复现前把当前对话和原图都备份,避免清掉历史影响下次诊断。
- 确认账号订阅:Free 用户每天 vision 调用次数有限,超出后请求会失败。
需要收集的信息
- 图片真实分辨率(长 × 宽)、文件大小(KB)、格式(PNG / JPG / HEIC)。
- 来源:自己拍 / 截图 / 别人发 / 网图保存。
- 完整 prompt 文案 + 错误回复(哪几个字 / 数字读错)。
- 当前模型 + 是否在 Project / Custom GPT。
最短修复路径
按收益从高到低,前 2 步通常修 70% 问题。
Step 1:重新导出 1500px+,用 PNG
低分辨率是最常见也是最容易修的:
- 截图用系统截图工具(macOS
Cmd+Shift+4,WindowsWin+Shift+S)原始保存,不经过任何压缩中转 - 手机截图直接用”AirDrop / 飞书 / Telegram 不压缩”传到电脑,不要走微信 / WhatsApp
- 已经低分辨率的图先 upscale:macOS Preview → Tools → Adjust Size → 长边 1500px,分辨率改 300dpi
- 文字 / 截图用 PNG,照片用 JPG(quality 95+)
Step 2:裁剪到关心的区域
整窗截图 → 模型注意力被分散。裁剪到 200×200 那块你真正要问的区域,识别率立刻上去。
# macOS 内置
Cmd+Shift+4 → 拖选区域 → 自动保存到桌面
# 现成软件
Snipaste / ShareX / Skitch(带标注)
Step 3:定向 prompt 把注意力引过去
不要”看图说话”,给具体抽取任务:
文字识别:
Transcribe every word visible in this image, in reading order
(top-to-bottom, left-to-right). Use "[unclear]" for any character
you cannot read with high confidence.
图表数据:
This is a bar chart. List each x-axis label and its corresponding
y-axis value as a two-column table. State your confidence (high /
medium / low) for each row.
UI 截图:
Read the text inside the red box only. Ignore everything outside it.
Step 4:图上标记重点区域
vision 对”框 / 箭头 / 颜色高亮”的区域注意力显著更高:
- 截图后用 Preview / Snipaste / Skitch 画红框 / 箭头
- prompt 里说”focus on the red box / arrow”
- 多个关注点用不同颜色 + prompt 里映射(“green box = section A, red box = section B”)
Step 5:深色模式截图先反色
深色 IDE / Notion 截图识别率低:
- macOS Preview → Tools → Adjust Color → Invert
- 或者临时切换 IDE 到浅色主题重截一份
- 或者增加屏幕亮度 + 字号
PowerPoint / Keynote 也可以右键 → “图片样式 → 校正颜色”做明亮 / 对比度调整。
Step 6:手写 / 罕见字体直接转录
不要硬磕识别。手写笔记 / 古文 / 名片:
- 手写:Apple Notes 自带手写 → 文本转换;GoodNotes / Notability 导出 PDF + OCR
- 印刷古文:Google Lens / ABBYY FineReader
- 转完文字再贴到 ChatGPT,比让它”看图认字”准
怎么确认已经修好
- 开新对话上传同图问同一题,识别正确 = 真修好(不是上次蒙对)。
- 让它把答案里的关键数字 / 字 在图里”原位置描述”(“该数字在图的右上角,紧贴 logo 下方”),位置对得上才算真的读到。
- 让同事用相同流程截一份重传,识别率一致 = 流程稳定。
如果还是没修好
- 把图切到最小:只留要识别的那一块(甚至单个字),看最小用例能不能跑通。
- 换图源:屏幕截图 → 重新拍纸版 → AI 重新画一份同内容图,排除是不是原图本身有质量问题。
- 换模型:4o vs GPT-5 vs Claude vs Gemini vision,对手写 / 表格 / 图表的强项不同。
- 准备好原图 + prompt + 错误现象 + 期望识别结果,去 help.openai.com 提工单。
预防建议
- 截图永远用系统工具直接存原图,不走任何压缩聊天工具中转。
- 高 stakes 识别(合同 / 财务表)一定 PNG + 长边 ≥ 2000px + 浅色背景。
- 手机拍纸用专门 scanner app(Adobe Scan / CamScanner)矫正透视 + 增强对比,比直接拍准。
- 每次让 vision 读数字 / 文字都要求它”State confidence per item”,低 confidence 的人工核一遍。
- 表格 / 图表用 ChatGPT 看之前先想:能不能直接拿到原始 CSV / 数据?能就别让它读图。
相关阅读
标签: #ChatGPT #ChatGPT 文件 #排查 #排查 #图片上传