你想出海报、T 恤设计、场景里的招牌或者 logo 概念,结果文字出来是乱码:OPEM、RESPCT、DESEPTION——字形看着像那么回事,但根本不是单词。或者更糟:中间字母粘在一起、字距不对、单词中途换字体。即便 2025-2026 旗舰(Ideogram 2.0、Imagen 3、Nano Banana、Flux 1.1 Pro Ultra)有改善,AI 出图文字仍是最薄弱的任务之一。修复几乎一定是换模型或者后期补字。
常见原因
按命中率排序。
1. 模型分词把文字拆碎了
大多数图像模型用和 LLM 一样的子词 tokenizer,不是按字符分。比如 RESPECT 可能被分成 RES+PECT,模型只见过单个”字母形状”的训练数据,没见过这些具体的子词块。它对块该怎么拼连只能猜,结果就是中间字母错。
如何判断:把目标词和输出对照,是不是首尾字母对、中间错?这就是 tokenization 症状。
2. 长短语越长越漂
字符串越长、错位越多。4 字母的词几乎一定对,20 字符的短语几乎一定错。误差是指数累积。
如何判断:数字符。8 字母以内,强模型能搞定;超过 15 字符,就需要换策略。
3. 风格化字体让模型更不确定
“Gothic 黑体”、“涂鸦”、“霓虹手写”、“花体” —— 这些风格化指令把模型推到训练数据更杂、对具体字形不确定的区间。
4. 同一张图里多处文字
橱窗招牌 + 黑板菜单 + 价签 —— 每处文字都和其他文字抢模型的文本渲染能力,全都质量下降。
5. 文字在异常位置
绕曲面物体的文字、强透视的文字、镜面 / 反光中的文字 —— 这些都要求模型把字形协调地变形,它很少能做对。
6. 用了不擅长出文字的模型
老的 SDXL checkpoint、动漫导向模型、大多数风格化 checkpoint,出文字都很弱。Midjourney v6 也明显挣扎。截至 2025 年底文字最强的:Ideogram 2.0、Imagen 3、Nano Banana、Flux 1.1 Pro Ultra、DALL-E 3。
7. 非拉丁字母的语种
中文、日文、阿拉伯文、西里尔字母等等。训练数据少,字形也不可靠。强文本模型在非拉丁字符上也常翻车。
动手前先确认
- 把 prompt、模型、乱字的输出存好。
- 想清楚:精确文字关键吗?logo / 法律 / 品牌——还是说视觉概念到位就行(背景招牌、氛围细节)?
- 精确文字关键时,提前规划:要用强文本模型还是要后期补字。
- 文字必须匹配品牌字体的话,AI 生成根本不是合适的工具。
- 改 prompt 前先备份。
需要收集的信息
- 完整 prompt 和目标文字。
- 出乱码用的是哪个模型 / 档位。
- 同 prompt 不同 seed 的几张失败例(3-4 张,能看到失败模式)。
- 用途(海报、logo 概念、场景细节)。
最短修复路径
Step 1:文字砍到 5 字符以内
可靠度最大单步提升。单词比短语稳得多:
OPEN而不是OPEN FOR BUSINESS2026而不是LIMITED EDITION 2026SALE而不是BIG SUMMER SALE
用例允许就上短版。
Step 2:换文字强的模型
文字渲染质量大致排序(2025-2026):
- Ideogram 2.0——专门优化文字。文字重要时第一个选这个。
- Imagen 3(Google)——英文文字很强。
- Nano Banana(Google 最近的图像模型)——排版强。
- Flux 1.1 Pro Ultra——相比 Flux Dev 文字明显改进。
- DALL-E 3(通过 ChatGPT)——短英文短语扎实。
非拉丁字母:各家都更弱,按你的具体语种逐个测。
Step 3:用引号显式标出文字
大多数强文本模型识别引号文字:
A vintage neon sign that reads "OPEN", glowing red on a brick wall
不加引号,模型容易把 “open” 理解成”概念”而不是字面文本。
Step 4:背景单独生成,文字后期补
任何精确文字关键的用例,最可靠的工作流:
- 不带文字(或带占位文字)生成图像。
- 在 Figma / Canva / Photoshop / Affinity 里打开。
- 用真字体打字。
- 放到 AI 文字应该出现的位置。
60 秒搞定,100% 可靠。
Step 5:logo / 品牌文字,永远别让 AI 出
真 logo 需要矢量、精确字距、品牌色合规。AI 光栅输出哪一条都满足不了。AI 只用来出 logo 概念;最终 logo 在 Figma / Illustrator 里做。
Step 6:风格化文字用真文字做图生图
- 在 Photoshop / Figma 里用普通字体打出目标文字。
- 1024x1024 导出。
- 当图生图输入,denoise 0.3-0.4,风格化 prompt:
graffiti spray-paint style, neon glow on brick wall。
把字形锚定到一张已知良好的文字图上,再风格化。比纯文生图做风格化文字强很多。
Step 7:实在不行就只 inpaint 文字区域
先把其余部分出好。Photoshop / SDXL inpaint 蒙住文字区。文字单独写一段 prompt。多次 inpaint 一般能搞定短文字。
怎么确认已经修好
- 文字干净地读出来,中间字母不糊。
- 第二个人不需要上下文就能读出来。
- 多词文字所有出现处都拼对、字体一致。
- 字体风格符合你的意图(手写、衬线,等等)。
如果还是没修好
- 降到最短文字(一个词,最好 3-4 字母)。
- 换上文字最强的模型(先 Ideogram 2.0)。
- 背景单出 + 后期补字——任何生产用途下这是 100% 可靠的路径。
- 非拉丁字符:接受 AI 当前不稳定,全部后期。
- 求助前打包 prompt、模型、目标文字、出错输出。
预防建议
- 文字默认走”后期补字”,不是”求模型写”。
- 任何文字重要的项目,标准化用文字强模型(Ideogram 2.0)。
- 法律 / 品牌 / 商标敏感文字,永远不靠 AI——出图不带它,后期加。
- 项目里把”文字工作流”写成文档:模型选谁、prompt 结构、后期步骤。
- 非拉丁字符项目,从一开始就把后期补字算进时间表。