ChatGPT 能认手写吗？

打印体可以、工整草书一般、潦草草书差。用 [?] 把不确定性露出来，关键行自己核。

为什么它编了一列我图里没有的数据？

通常是图太小或者图例被裁掉了。重传一张更干净的裁剪，prompt 限定"只读显式标注的"。

数学公式能识别吗？

打印的公式还行，手写的差。让它用 LaTeX 写出来，和原图对一下。

截图里有个人信息能传吗？

看你套餐的数据留存设置。原则上：聊天里不敢传的，截图也别传，敏感字段先打码。

AI 工具教程

ChatGPT 视觉——读懂截图、图表、UI

把报错弹窗、表单、PDF 里的图、白板照片传给 ChatGPT 转写或解释——用对 prompt 才不会被它悄悄编出来的数字坑。

发布于: 2026/05/24 更新于: 2026/06/02 作者: AI Productivity Guide Team 🌐 查看英文版本

这篇讲什么

你截一张报错弹窗、税表、PDF 里的图、会议白板，让 ChatGPT 读出来。一半时候答得没问题，另一半自信地把数字念错、漏一行、或者编出一个图上根本没有的标签。解决办法不是不用视觉，而是用一种能逼它把不确定性露出来的 prompt——别让它顺嘴糊过去。这篇适合每天都在用视觉的人，想少踩一些 OCR 错和图表幻觉。

这篇适合谁看

靠截图调试的工程师、从只有图的图表里抠数字的分析师、看用户报错弹窗做客服分诊的人、要给同学讲教材图的学生——任何宁愿传图也不想重打一遍的人。如果你只是让它”艺术地描述一下这张图”，本文不适用，去玩吧。如果你用它来抠必须正确的事实，往下读。

什么时候适合用

截图重打要花 10 分钟以上（一张税表、一段长报错日志）。
把图表、流程图、UI 流程讲给同事听，需要一份书面摘要。
报错弹窗很乱，需要从一堆 stack trace 里挑出能动手的那行。
把白板上手写的笔记拍下来，转成结构化大纲。

开始前准备

截图要裁紧，只留你真在意的那块。整屏截图会让视觉注意力散掉。
小字（日志、代码、合同细则）先放大再截——字号在 12px 以下时 OCR 错得最频繁。
一开始就想清楚：要逐字转写，还是要解释。Prompt 不同，失败模式也不同。
数字必须准的场景（财报、用药剂量表），事先规划好自己手动抽查 3-5 个值。

具体步骤

上传图片。等附件真的挂上去——附件没上传完就发 prompt，图会被悄悄丢掉。

说清楚要哪种读法。“转写""解释""抽取”是三件事：

把这张截图里可见的文字逐字转写。
保留换行。任何看不清的字符，标 [?]。
不要补图里看不到的文字。

图表只要可核验的（坐标轴、标签、走势形状），明确不要让它估读数：

描述这张图：坐标轴标签、标题、图例、每条线的走势形状。
不要从视觉上估具体 y 值——
只报图上显式标出的数值。

UI 截图，让模型按屏幕顺序把用户能做的事走一遍：

这是一张设置页截图。按屏幕上的出现顺序，
列出用户在这里能做的每个操作。
不要推断功能——只描述看得到的东西。

手写笔记，要预期有歧义。让模型把它的猜测露出来：

把这些手写笔记转写出来。任何不确定的词，
给一个最佳猜测加 [?]，再给 1-2 个备选读法。

模型说某块读不出来，重新上传一张更高分辨率的——不要让它瞎猜。

一份能把不确定性露出来的 prompt

视觉任务：{转写|解释|抽取} 这张图。
约束：
- 读不准的，统一标 [?]。
- 不要编图里没有的文字、数字、标签。
- 图表上没有显式标注的数值，
  不要从视觉上估读。
- 如果图的分辨率不够做这个任务，
  请直接说不够、停下来，不要猜。

最关键的是最后那句”说不够、停下来”。没有这一句，模型会编一个看起来合理的输出，而不是告诉你图根本没看清。

完成后检查

逐字转写：抽 3-5 行对图核。错了就重提 prompt”第 N 行再仔细一点”，或者重传一张高分辨率裁剪。
图表：核走势描述和你看到的一致。返回了具体数字，挨个核——这些数字在图上必须有显式标注。
UI 解释：模型说的每个按钮或字段，确认图上真的有。“凭空按钮”是已知失败模式。
手写：关键的行自己读原图。打印体它处理得好，工整草书还行，潦草草书和缩写就差。

怎么复用这套流程

存一份 vision-prompts.md，留三套核心模板（逐字转写、保守解释图表、按 UI 顺序走一遍）。
反复处理同类图（同一个 dashboard、同一份表单、同一种白板布局），给每类图准备一份 prompt，把你每次都要抓的字段写进去。
高风险抽取（税表、合同），prompt 旁边配一份核验清单——哪些字段必须人工再核一遍才能进入流程。

建议的操作流程

裁紧 → 上传 → 说清要哪种读法（转写 / 解释 / 抽取）→ 用能露出不确定性的 prompt → 关键值对图抽核 → 读得弱就重传更高分辨率。

容易踩的坑

整屏截图但其实只在意一个窗口。视觉会被菜单栏和标签页分心。
“这图说了什么？“无约束地问。模型会读出走势，还会顺手编几个图上没标的数字。
对小字太信任。日志、代码、页脚细则是 OCR 错最容易混进去的地方。
让模型补截图边缘被切掉的字段。它会编一个貌似合理的补全，和原文对不上。
用聊天软件预览的低分辨率截图。从源应用重新导一份高清的。
一个 prompt 里又要转写又要分析。转写质量会下降，分两轮做。

FAQ

ChatGPT 能认手写吗？: 打印体可以、工整草书一般、潦草草书差。用 [?] 把不确定性露出来，关键行自己核。
为什么它编了一列我图里没有的数据？: 通常是图太小或者图例被裁掉了。重传一张更干净的裁剪，prompt 限定”只读显式标注的”。
数学公式能识别吗？: 打印的公式还行，手写的差。让它用 LaTeX 写出来，和原图对一下。
截图里有个人信息能传吗？: 看你套餐的数据留存设置。原则上：聊天里不敢传的，截图也别传，敏感字段先打码。

这篇讲什么

这篇适合谁看

什么时候适合用

开始前准备

具体步骤

一份能把不确定性露出来的 prompt

完成后检查

怎么复用这套流程

建议的操作流程

容易踩的坑

FAQ

相关阅读

相关文章

ChatGPT Canvas 工作流：改长文档不用整篇重写

ChatGPT Deep Research：经得起挑刺的工作流

ChatGPT 键盘快捷键：2026 年值得记的那一份清单

ChatGPT 整理会议纪要：从转录到行动项（2026）

手机上的 ChatGPT：真正适合手机的几种用法

ChatGPT 定时任务：把重复 AI 工作排进时间表（2026 指南）