ChatGPT 图片生成怎么用：从第一张图到风格一致的系列

Q: 需要 Midjourney 那种 `--ar` 参数吗？

不需要。ChatGPT 不解析 `--ar`、`--v`、`--sref`。比例用自然语言说就行（"4:5""竖版 9:16"）。它支持 3:1 到 1:3、最高 2K，而且换比例时是重新构图而不是裁切。

Q: 生成的图为什么看起来很空泛、像 AI 库存图？

Prompt 缺具体信息。具体的镜头和光线方向永远比模糊的形容词管用。加上 `50mm f/1.8`、窗户的侧光、一个明确的氛围词，再重新生成。

2026 年 6 月最新的 ChatGPT Images 2.0 怎么用、最小可用的 Prompt 怎么写、怎么让一个角色或风格在一组 8 张图里保持一致。

发布于: 2026/05/16 更新于: 2026/06/06 作者: AI Productivity Guide Team 🌐 查看英文版本

ChatGPT 的图片生成和 Midjourney 玩法不太一样：没有 --ar 这类参数，模型会先”想清楚”你要什么再出图，还能在同一段对话里让一个角色跨多张图保持一致。这篇带你从”敲下 Prompt”到出第一张能用的图，再到给小红书 / 公众号做风格一致的系列。

一句话总结

截至 2026 年 6 月，ChatGPT 的图片生成跑在 ChatGPT Images 2.0（模型 gpt-image-2）上，OpenAI 于 2026 年 4 月 21 日上线，取代了 GPT Image 1.5。
直接在普通对话框里输入即可。出现”生成""画""图片""帮我画一张……”这类词就会自动调起，不用切到单独的工具。
免费档每天大约 2-3 张，只能用基础模型。Plus（$20/月）解锁 Thinking 模式（推理、跨最多 8 张图的角色一致性），额度大约是每 3 小时滚动窗口 50 张。
比例支持 3:1 到 1:3，最高 2K 分辨率，用自然语言指定即可（“做成 4:5""竖版 9:16”），不需要 Midjourney 参数。
相比 Midjourney 真正的优势：它记得同一对话里上一张图，所以”同一个角色换个场景”是真能保持住的。

ChatGPT Images 2.0 改了什么

2026 年 4 月这次更新值得先了解，因为下面的工作流都依赖它。相比老版 DALL·E，有三点是新的：

能力	之前（GPT Image 1.5）	现在（ChatGPT Images 2.0）
每条 Prompt 出图数	1 张	最多 8 张，角色 / 物体保持连续
比例	有限的预设	3:1 到 1:3，重新构图而非裁切
推理步骤	无	出图前先规划版面和文字位置（Plus 以上的 Thinking）
图内文字	经常乱码	排版可读，含中文、日文、韩文
参考图编辑	粗糙	上传图、选中局部、用文字描述改动

最关键的是推理这一步：在 Plus 及以上的 Thinking 模式下，模型会先理解空间关系和文字位置，所以信息图、菜单、带标注的示意图能出得清晰可读，而不是一堆糊掉的字。

在哪打开、需要哪个档位

没有单独的图片面板，直接在普通对话框里出图。

档位	价格（2026 年 6 月）	图片能力	大致额度
免费	$0	仅基础模型	约 2-3 张/天
Go	$8/月	基础模型	高于免费
Plus	$20/月	基础 + Thinking 模式	约 50 张 / 3 小时窗口
Pro	$200/月	基础 + Thinking + ImageGen Pro	最高

OpenAI 并不公布精确的图片上限，而且会动态调整，以上请当作 2026 年 6 月社区观察到的区间。实操结论：要让一组图里的角色保持一致，就需要 Plus 及以上，才能用上 Thinking 模式。

最小可用的 Prompt 结构

不需要 Midjourney 参数，但有结构仍然比一句模糊描述强得多。按这个顺序写：

主体 + 风格 + 镜头 / 视角 + 光线 + 氛围 + 比例

例：

一个 30 岁的男性在咖啡馆窗边喝咖啡，写实摄影风格，50mm f/1.8 镜头，自然窗光，温暖、安静的氛围，比例 4:5。

大多数人会漏掉的两项恰恰是镜头和光线方向，而这正是”真实照片”和”AI 库存图”的分水岭。写明焦段（50mm、85mm）加一个光源（“窗户的侧光""阴天柔光”），比堆十个氛围形容词管用。

比例直接用文字说就行。ChatGPT 会为新比例重新构图，而不是裁切，所以同一个创意能干净地输出成 1:1、9:16、16:9，分别投放到不同位置。

怎么让一组图风格一致

这是 ChatGPT 最强的一点：它在同一会话里”记得”上一张图。用法：

出第一张后，明确说要保留什么：“保留这种光线和调色，角色和服装不变”。
每出一张新图都锚定上一张：“基于上一张，同一个人，换到夜里的厨房。”
迭代 3-4 张后，把”风格描述”固化成一段固定文本，之后只改主体那一行，每次粘贴同一段。
在 Plus 及以上，可以一次要整组：“生成 4 张这个角色在不同场景的图，脸和服装保持一致。“Thinking 模式能在一次请求里把最多 8 张图的连续性保住。

两件事会破坏一致性：开新对话（风格会重置），以及中途改动固化好的风格段。保持一个对话、保持那段文本稳定。

编辑已有图片

上传一张图后，你可以选中某个区域描述改动，也可以在对话里描述更大范围的修改。用自然语言追问就能调整，不用从头来过：“去掉杯子""把外套改成藏青色""修一下手”。区域选择不是像素级精确，所以遇到要求严格的局部，预留两三轮迭代。

适合做什么

小红书 / 公众号封面、Banner、缩略图多版本
个人头像、虚拟形象探索
商品示意图、设计沟通用的场景图
App / 网站 hero 图灵感、分镜
信息图和带标注的示意图（文字可读这一升级让这类需求第一次真正可行）

不适合做什么

需要矢量、可缩放、可完整修改的最终交付件（Logo、图标）——它输出的是栅格像素，不是可编辑路径
需要明确授权的严格商业版权素材（商标等）
截止时间很紧、对文字要求精确的场景——排版好多了，但仍要逐字校对

关于版权：按 OpenAI 当前的使用条款，你拥有自己生成的图并可商用，但 Logo、商标，或任何需要严格知识产权清晰度的东西，不要靠 AI 出。商业上线前请看最新版本条款。

FAQ

ChatGPT 的图片生成在哪里入口？ Free / Plus / Pro 用户都在普通对话框里出图，没有单独面板。出现”生成""画""图片""帮我画一张……”等词就会触发。免费档每天大约只能出 2-3 张。

需要 Midjourney 那种 --ar 参数吗？ 不需要。ChatGPT 不解析 --ar、--v、--sref。比例用自然语言说就行（“4:5""竖版 9:16”）。它支持 3:1 到 1:3、最高 2K，而且换比例时是重新构图而不是裁切。

怎么让一组 4 张图风格一致？ 在同一对话里全部生成，并明确引用上一张（“同一个角色、同样服装，换到厨房”）。在 Plus 及以上，Thinking 模式可以一次请求出最多 8 张并保持连续性。开新对话风格会重置。

生成的图为什么看起来很空泛、像 AI 库存图？ Prompt 缺具体信息。具体的镜头和光线方向永远比模糊的形容词管用。加上 50mm f/1.8、窗户的侧光、一个明确的氛围词，再重新生成。

免费档和 Plus 在图片上差在哪？ 免费档只有基础模型（约 2-3 张/天）。Plus（$20/月）多了 Thinking 模式——出图前规划版面和文字的推理步骤，以及跨最多 8 张图的角色一致性——额度约每 3 小时窗口 50 张。Pro 在此之上再叠加 ImageGen Pro 层。

一句话总结

ChatGPT Images 2.0 改了什么

在哪打开、需要哪个档位

最小可用的 Prompt 结构

怎么让一组图风格一致

编辑已有图片

适合做什么

不适合做什么

FAQ

相关阅读

相关文章

ChatGPT Canvas 工作流：改长文档不用整篇重写

ChatGPT Deep Research：经得起挑刺的工作流

ChatGPT 键盘快捷键：2026 年值得记的那一份清单

ChatGPT 整理会议纪要：从转录到行动项（2026）

手机上的 ChatGPT：真正适合手机的几种用法

ChatGPT 定时任务：把重复 AI 工作排进时间表（2026 指南）