ChatGPT 视觉——读懂截图、图表、UI

把报错弹窗、表单、PDF 里的图、白板照片传给 ChatGPT 转写或解释——用对 prompt 才不会被它悄悄编出来的数字坑。

这篇讲什么

你截一张报错弹窗、税表、PDF 里的图、会议白板,让 ChatGPT 读出来。一半时候答得没问题,另一半自信地把数字念错、漏一行、或者编出一个图上根本没有的标签。解决办法不是不用视觉,而是用一种能逼它把不确定性露出来的 prompt——别让它顺嘴糊过去。这篇适合每天都在用视觉的人,想少踩一些 OCR 错和图表幻觉。

这篇适合谁看

靠截图调试的工程师、从只有图的图表里抠数字的分析师、看用户报错弹窗做客服分诊的人、要给同学讲教材图的学生——任何宁愿传图也不想重打一遍的人。如果你只是让它”艺术地描述一下这张图”,本文不适用,去玩吧。如果你用它来抠必须正确的事实,往下读。

什么时候适合用

  • 截图重打要花 10 分钟以上(一张税表、一段长报错日志)。
  • 把图表、流程图、UI 流程讲给同事听,需要一份书面摘要。
  • 报错弹窗很乱,需要从一堆 stack trace 里挑出能动手的那行。
  • 把白板上手写的笔记拍下来,转成结构化大纲。

开始前准备

  • 截图要裁紧,只留你真在意的那块。整屏截图会让视觉注意力散掉。
  • 小字(日志、代码、合同细则)先放大再截——字号在 12px 以下时 OCR 错得最频繁。
  • 一开始就想清楚:要逐字转写,还是要解释。Prompt 不同,失败模式也不同。
  • 数字必须准的场景(财报、用药剂量表),事先规划好自己手动抽查 3-5 个值。

具体步骤

  1. 上传图片。等附件真的挂上去——附件没上传完就发 prompt,图会被悄悄丢掉。

  2. 说清楚要哪种读法。“转写""解释""抽取”是三件事:

    把这张截图里可见的文字逐字转写。
    保留换行。任何看不清的字符,标 [?]。
    不要补图里看不到的文字。
  3. 图表只要可核验的(坐标轴、标签、走势形状),明确不要让它估读数:

    描述这张图:坐标轴标签、标题、图例、每条线的走势形状。
    不要从视觉上估具体 y 值——
    只报图上显式标出的数值。
  4. UI 截图,让模型按屏幕顺序把用户能做的事走一遍:

    这是一张设置页截图。按屏幕上的出现顺序,
    列出用户在这里能做的每个操作。
    不要推断功能——只描述看得到的东西。
  5. 手写笔记,要预期有歧义。让模型把它的猜测露出来:

    把这些手写笔记转写出来。任何不确定的词,
    给一个最佳猜测加 [?],再给 1-2 个备选读法。
  6. 模型说某块读不出来,重新上传一张更高分辨率的——不要让它瞎猜。

一份能把不确定性露出来的 prompt

视觉任务:\{转写|解释|抽取\} 这张图。
约束:
- 读不准的,统一标 [?]。
- 不要编图里没有的文字、数字、标签。
- 图表上没有显式标注的数值,
  不要从视觉上估读。
- 如果图的分辨率不够做这个任务,
  请直接说不够、停下来,不要猜。

最关键的是最后那句”说不够、停下来”。没有这一句,模型会编一个看起来合理的输出,而不是告诉你图根本没看清。

完成后检查

  • 逐字转写:抽 3-5 行对图核。错了就重提 prompt”第 N 行再仔细一点”,或者重传一张高分辨率裁剪。
  • 图表:核走势描述和你看到的一致。返回了具体数字,挨个核——这些数字在图上必须有显式标注。
  • UI 解释:模型说的每个按钮或字段,确认图上真的有。“凭空按钮”是已知失败模式。
  • 手写:关键的行自己读原图。打印体它处理得好,工整草书还行,潦草草书和缩写就差。

怎么复用这套流程

  • 存一份 vision-prompts.md,留三套核心模板(逐字转写、保守解释图表、按 UI 顺序走一遍)。
  • 反复处理同类图(同一个 dashboard、同一份表单、同一种白板布局),给每类图准备一份 prompt,把你每次都要抓的字段写进去。
  • 高风险抽取(税表、合同),prompt 旁边配一份核验清单——哪些字段必须人工再核一遍才能进入流程。

建议的操作流程

裁紧 → 上传 → 说清要哪种读法(转写 / 解释 / 抽取)→ 用能露出不确定性的 prompt → 关键值对图抽核 → 读得弱就重传更高分辨率。

容易踩的坑

  • 整屏截图但其实只在意一个窗口。视觉会被菜单栏和标签页分心。
  • “这图说了什么?“无约束地问。模型会读出走势,还会顺手编几个图上没标的数字。
  • 对小字太信任。日志、代码、页脚细则是 OCR 错最容易混进去的地方。
  • 让模型补截图边缘被切掉的字段。它会编一个貌似合理的补全,和原文对不上。
  • 用聊天软件预览的低分辨率截图。从源应用重新导一份高清的。
  • 一个 prompt 里又要转写又要分析。转写质量会下降,分两轮做。

FAQ

  • ChatGPT 能认手写吗?: 打印体可以、工整草书一般、潦草草书差。用 [?] 把不确定性露出来,关键行自己核。
  • 为什么它编了一列我图里没有的数据?: 通常是图太小或者图例被裁掉了。重传一张更干净的裁剪,prompt 限定”只读显式标注的”。
  • 数学公式能识别吗?: 打印的公式还行,手写的差。让它用 LaTeX 写出来,和原图对一下。
  • 截图里有个人信息能传吗?: 看你套餐的数据留存设置。原则上:聊天里不敢传的,截图也别传,敏感字段先打码。

相关阅读

标签: #ChatGPT #工作流