ChatGPT 看不懂上传的图片:6 类原因 + 排查修复

截图或图表传上去 ChatGPT 描述错了——多半是分辨率、OCR 局限、对比度、或问法太空。

ChatGPT 的 vision(GPT-5.5 / 5 系视觉)是真有用,但有损:图片会被先压缩到模型最大 tile 尺寸(通常长边 ≤ 2048px)再处理,小字 / 低对比 / 复杂图表都可能读错。“看不懂”很少是模型完全失明,多数情况是分辨率 + 提示词共同造成的精度不足。先把图传清楚,再用定向 prompt 把注意力引到正确区域,绝大多数误读都能修。

常见原因

按命中率从高到低:

1. 图片分辨率太低 / 被压缩

最常见。手机截图发到微信再下载下来已经是缩略图,长边 < 800px。文字一糊就读错。

如何判断:在 ChatGPT 里点图查看原始大小,长边 < 1024px = 概率高。重传原图(不要走过任何压缩中转)。

2. JPEG 压缩 / 模糊让小字读错

JPEG 在小字 / 边缘处有 ringing artifact,OCR 把”和”读成”知”、“5”读成”6”。

如何判断:图里小字(< 12pt 字号)读错最多 = 压缩问题。换 PNG 重传。

3. 深色模式截图对比度低

深色背景 + 深灰字(IDE / Notion 默认配色)vision 模型识别率显著下降。

如何判断:明色模式重截一份对比,识别准确率明显提高 = 对比度问题。

4. Prompt 没指明要抽取什么

“看一下这张图” → 模型给个大概描述,没读具体内容。“读出 y 轴所有刻度数字” → 它强制扫描那个区域。

如何判断:你的 prompt 只是”看 / 描述 / 这是什么” = 太空。

5. 图表 / 数据视觉本身缺要素

没标轴、没图例、颜色相近、堆叠柱重叠——人类也很难判,模型同样判错。

如何判断:拿你的图给同事一秒钟看,他也不能直接读出数字 = 图本身信息密度不够。

6. 手写 / 古字 / 罕见字体

vision 对手写、繁体、日文汉字、行楷的识别远低于印刷体。

如何判断:识别率 < 50% 且都是这类内容 = 当前模型能力边界,先转印刷 / 转录。

7. 屏幕反光 / 透视拍摄

手机拍电脑屏幕带摩尔纹、拍纸文件有透视形变。

如何判断:图里有规律性条纹 / 文字不水平 / 高光斑点 = 拍摄问题。直接截图或正面拍。

动手前先确认

  • 确认问题是在普通对话、Project,还是 Custom GPT 里出现;vision 在三者里能力一致但配额可能不同。
  • 复现前把当前对话和原图都备份,避免清掉历史影响下次诊断。
  • 确认账号订阅:Free 用户每天 vision 调用次数有限,超出后请求会失败。

需要收集的信息

  • 图片真实分辨率(长 × 宽)、文件大小(KB)、格式(PNG / JPG / HEIC)。
  • 来源:自己拍 / 截图 / 别人发 / 网图保存。
  • 完整 prompt 文案 + 错误回复(哪几个字 / 数字读错)。
  • 当前模型 + 是否在 Project / Custom GPT。

最短修复路径

按收益从高到低,前 2 步通常修 70% 问题。

Step 1:重新导出 1500px+,用 PNG

低分辨率是最常见也是最容易修的:

  • 截图用系统截图工具(macOS Cmd+Shift+4,Windows Win+Shift+S)原始保存,不经过任何压缩中转
  • 手机截图直接用”AirDrop / 飞书 / Telegram 不压缩”传到电脑,不要走微信 / WhatsApp
  • 已经低分辨率的图先 upscale:macOS Preview → Tools → Adjust Size → 长边 1500px,分辨率改 300dpi
  • 文字 / 截图用 PNG,照片用 JPG(quality 95+)

Step 2:裁剪到关心的区域

整窗截图 → 模型注意力被分散。裁剪到 200×200 那块你真正要问的区域,识别率立刻上去。

# macOS 内置
Cmd+Shift+4 → 拖选区域 → 自动保存到桌面

# 现成软件
Snipaste / ShareX / Skitch(带标注)

Step 3:定向 prompt 把注意力引过去

不要”看图说话”,给具体抽取任务:

文字识别:
Transcribe every word visible in this image, in reading order
(top-to-bottom, left-to-right). Use "[unclear]" for any character
you cannot read with high confidence.

图表数据:
This is a bar chart. List each x-axis label and its corresponding
y-axis value as a two-column table. State your confidence (high /
medium / low) for each row.

UI 截图:
Read the text inside the red box only. Ignore everything outside it.

Step 4:图上标记重点区域

vision 对”框 / 箭头 / 颜色高亮”的区域注意力显著更高:

  1. 截图后用 Preview / Snipaste / Skitch 画红框 / 箭头
  2. prompt 里说”focus on the red box / arrow”
  3. 多个关注点用不同颜色 + prompt 里映射(“green box = section A, red box = section B”)

Step 5:深色模式截图先反色

深色 IDE / Notion 截图识别率低:

  • macOS Preview → Tools → Adjust Color → Invert
  • 或者临时切换 IDE 到浅色主题重截一份
  • 或者增加屏幕亮度 + 字号

PowerPoint / Keynote 也可以右键 → “图片样式 → 校正颜色”做明亮 / 对比度调整。

Step 6:手写 / 罕见字体直接转录

不要硬磕识别。手写笔记 / 古文 / 名片:

  • 手写:Apple Notes 自带手写 → 文本转换;GoodNotes / Notability 导出 PDF + OCR
  • 印刷古文:Google Lens / ABBYY FineReader
  • 转完文字再贴到 ChatGPT,比让它”看图认字”准

怎么确认已经修好

  • 开新对话上传同图问同一题,识别正确 = 真修好(不是上次蒙对)。
  • 让它把答案里的关键数字 / 字 在图里”原位置描述”(“该数字在图的右上角,紧贴 logo 下方”),位置对得上才算真的读到。
  • 让同事用相同流程截一份重传,识别率一致 = 流程稳定。

如果还是没修好

  • 把图切到最小:只留要识别的那一块(甚至单个字),看最小用例能不能跑通。
  • 换图源:屏幕截图 → 重新拍纸版 → AI 重新画一份同内容图,排除是不是原图本身有质量问题。
  • 换模型:4o vs GPT-5 vs Claude vs Gemini vision,对手写 / 表格 / 图表的强项不同。
  • 准备好原图 + prompt + 错误现象 + 期望识别结果,去 help.openai.com 提工单。

预防建议

  • 截图永远用系统工具直接存原图,不走任何压缩聊天工具中转。
  • 高 stakes 识别(合同 / 财务表)一定 PNG + 长边 ≥ 2000px + 浅色背景。
  • 手机拍纸用专门 scanner app(Adobe Scan / CamScanner)矫正透视 + 增强对比,比直接拍准。
  • 每次让 vision 读数字 / 文字都要求它”State confidence per item”,低 confidence 的人工核一遍。
  • 表格 / 图表用 ChatGPT 看之前先想:能不能直接拿到原始 CSV / 数据?能就别让它读图。

相关阅读

标签: #ChatGPT #ChatGPT 文件 #排查 #排查 #图片上传