这篇讲什么
你截一张报错弹窗、税表、PDF 里的图、会议白板,让 ChatGPT 读出来。一半时候答得没问题,另一半自信地把数字念错、漏一行、或者编出一个图上根本没有的标签。解决办法不是不用视觉,而是用一种能逼它把不确定性露出来的 prompt——别让它顺嘴糊过去。这篇适合每天都在用视觉的人,想少踩一些 OCR 错和图表幻觉。
这篇适合谁看
靠截图调试的工程师、从只有图的图表里抠数字的分析师、看用户报错弹窗做客服分诊的人、要给同学讲教材图的学生——任何宁愿传图也不想重打一遍的人。如果你只是让它”艺术地描述一下这张图”,本文不适用,去玩吧。如果你用它来抠必须正确的事实,往下读。
什么时候适合用
- 截图重打要花 10 分钟以上(一张税表、一段长报错日志)。
- 把图表、流程图、UI 流程讲给同事听,需要一份书面摘要。
- 报错弹窗很乱,需要从一堆 stack trace 里挑出能动手的那行。
- 把白板上手写的笔记拍下来,转成结构化大纲。
开始前准备
- 截图要裁紧,只留你真在意的那块。整屏截图会让视觉注意力散掉。
- 小字(日志、代码、合同细则)先放大再截——字号在 12px 以下时 OCR 错得最频繁。
- 一开始就想清楚:要逐字转写,还是要解释。Prompt 不同,失败模式也不同。
- 数字必须准的场景(财报、用药剂量表),事先规划好自己手动抽查 3-5 个值。
具体步骤
-
上传图片。等附件真的挂上去——附件没上传完就发 prompt,图会被悄悄丢掉。
-
说清楚要哪种读法。“转写""解释""抽取”是三件事:
把这张截图里可见的文字逐字转写。 保留换行。任何看不清的字符,标 [?]。 不要补图里看不到的文字。 -
图表只要可核验的(坐标轴、标签、走势形状),明确不要让它估读数:
描述这张图:坐标轴标签、标题、图例、每条线的走势形状。 不要从视觉上估具体 y 值—— 只报图上显式标出的数值。 -
UI 截图,让模型按屏幕顺序把用户能做的事走一遍:
这是一张设置页截图。按屏幕上的出现顺序, 列出用户在这里能做的每个操作。 不要推断功能——只描述看得到的东西。 -
手写笔记,要预期有歧义。让模型把它的猜测露出来:
把这些手写笔记转写出来。任何不确定的词, 给一个最佳猜测加 [?],再给 1-2 个备选读法。 -
模型说某块读不出来,重新上传一张更高分辨率的——不要让它瞎猜。
一份能把不确定性露出来的 prompt
视觉任务:\{转写|解释|抽取\} 这张图。
约束:
- 读不准的,统一标 [?]。
- 不要编图里没有的文字、数字、标签。
- 图表上没有显式标注的数值,
不要从视觉上估读。
- 如果图的分辨率不够做这个任务,
请直接说不够、停下来,不要猜。
最关键的是最后那句”说不够、停下来”。没有这一句,模型会编一个看起来合理的输出,而不是告诉你图根本没看清。
完成后检查
- 逐字转写:抽 3-5 行对图核。错了就重提 prompt”第 N 行再仔细一点”,或者重传一张高分辨率裁剪。
- 图表:核走势描述和你看到的一致。返回了具体数字,挨个核——这些数字在图上必须有显式标注。
- UI 解释:模型说的每个按钮或字段,确认图上真的有。“凭空按钮”是已知失败模式。
- 手写:关键的行自己读原图。打印体它处理得好,工整草书还行,潦草草书和缩写就差。
怎么复用这套流程
- 存一份
vision-prompts.md,留三套核心模板(逐字转写、保守解释图表、按 UI 顺序走一遍)。 - 反复处理同类图(同一个 dashboard、同一份表单、同一种白板布局),给每类图准备一份 prompt,把你每次都要抓的字段写进去。
- 高风险抽取(税表、合同),prompt 旁边配一份核验清单——哪些字段必须人工再核一遍才能进入流程。
建议的操作流程
裁紧 → 上传 → 说清要哪种读法(转写 / 解释 / 抽取)→ 用能露出不确定性的 prompt → 关键值对图抽核 → 读得弱就重传更高分辨率。
容易踩的坑
- 整屏截图但其实只在意一个窗口。视觉会被菜单栏和标签页分心。
- “这图说了什么?“无约束地问。模型会读出走势,还会顺手编几个图上没标的数字。
- 对小字太信任。日志、代码、页脚细则是 OCR 错最容易混进去的地方。
- 让模型补截图边缘被切掉的字段。它会编一个貌似合理的补全,和原文对不上。
- 用聊天软件预览的低分辨率截图。从源应用重新导一份高清的。
- 一个 prompt 里又要转写又要分析。转写质量会下降,分两轮做。
FAQ
- ChatGPT 能认手写吗?: 打印体可以、工整草书一般、潦草草书差。用 [?] 把不确定性露出来,关键行自己核。
- 为什么它编了一列我图里没有的数据?: 通常是图太小或者图例被裁掉了。重传一张更干净的裁剪,prompt 限定”只读显式标注的”。
- 数学公式能识别吗?: 打印的公式还行,手写的差。让它用 LaTeX 写出来,和原图对一下。
- 截图里有个人信息能传吗?: 看你套餐的数据留存设置。原则上:聊天里不敢传的,截图也别传,敏感字段先打码。