AI 视频画面内文字乱码 / 抖动修复

AI 视频里的招牌字、屏幕字拼错、抖动、不可读。在 CapCut / Premiere 后期加字,或换 Veo 3 / Sora 这种擅长画内文字的模型。

你的 prompt 写了一块写 “OPEN” 的牌子,或者一个显示 “MESSAGE” 的手机屏。出来的画面是抽象字符、帧间抖、每帧拼出来都不一样。当前主流 AI 视频模型对画内文字处理很差——它们把字母当纹理而不是语言。截至目前,Veo 3 和 Sora 是处理画内文字最好的,其它模型都会乱。修复方式:用 CapCut、Premiere、DaVinci Resolve 在后期加字,换支持画内文字的模型,或者在 AI 生成的背景上合成一张静态图形。

常见原因

按踩坑频率排序。

1. 模型不把文字作为语言来表示

Runway Gen-3、Pika 2.0、Kling 1.6、Hailuo、Luma——这些模型训练的是渲染视觉场景,不是拼字母。它们生成”看起来像字”的形状,但其实不是字。

怎么判断:让任意一个模型在一块牌子上写 “HELLO”。出来是 “H3LL0”、“HEILO”,或每帧不一样,那这模型就不能做文字。

2. 每帧都有字,但跨帧不一致

就算第一帧拼对了,模型也是每帧重新生成。到第 30 帧,同一个词的字距、颜色、形状都变了。

怎么判断:定格 frame 1 和 frame 30。文字”晃”,说明模型在逐帧重生,而不是追踪一个静态物体。

3. 文字在画面里太小

字越小 = 像素越少 = 模型越没容量拼对。墙上的大标题字比 UI 按钮小字好做得多。

怎么判断:估一下字高的像素。低于 40 像素肯定乱,超过 200 像素有些模型能搞定。

4. 一个 clip 里有多处文字

一条街上三块招牌、两张海报、一个车牌——同时让模型在五个地方渲文字,至少错四个。

怎么判断:数文字区域。多于一处就准备在后期做。

5. 要了风格化字体

“草书霓虹”、“涂鸦字”、“1920 年代电影片头”——把文字推到风格化空间,连 Veo 3 / Sora 都可能翻车。

怎么判断:降级到普通 sans-serif 大写字。这样能行、风格化不行,就是风格的问题。

最短修复路径

Step 1:重渲可行就换支持画内文字的模型

# Veo 3 / Veo 3.1
- 2026 年画内文字最好的
- 短词、招牌、基础 UI 元素都能搞
- Prompt:
"A wooden shop sign with the text OPEN in clear black letters, 
sharp focus, no other text in scene."

# Sora
- 中等长度文字、清晰字体强
- Storyboard 模式可逐镜指定确切文字
- Prompt:
"Vintage diner sign with the word DINER in red neon, glowing steadily, 
no flicker, no other text."

# Kling 2.0
- 比 1.6 改善,但还是不稳
- 只作为兜底

Step 2:AI 视频不带字,后期加

工业级方案。生成时把要写字的位置留空,然后在上面合成字:

# Prompt 留空表面
"A wooden shop sign hanging from a chain, blank surface, no text, no markings, 
clean weathered wood ready for signage."

# CapCut
- Add Text -> 放到空白招牌上
- 用关键帧追踪招牌的视觉运动
- 有倾斜就用 3D 层匹配透视
- 导出

# Premiere Pro
- Essential Graphics -> Text
- 手动关键帧或 Mocha 跟踪
- 加 Drop Shadow 让字嵌进场景

# DaVinci Resolve Fusion
- Text+ 节点
- Tracker 绑定到表面
- Merge 到 AI 素材上

Step 3:固定镜头就直接贴一张静态 PNG

AI clip 没有镜头运动、文字区域静止的话,叠个 PNG 就完事:

# 在 Photoshop / Figma / Affinity Designer 做字
- 匹配场景隐含的光照
- 加一点噪声 / 颗粒匹配相机响应
- 导出带透明通道的 PNG

# 任何剪辑软件合成
- PNG 放在 AI 视频上层
- 对齐到目标表面
- 在两层之上覆盖一层 5-10% 透明度的颗粒统一质感

Step 4:后期 mask 掉乱码再贴干净文字

已经拿到坏文字的 AI 片,又没法重渲:

# DaVinci Resolve Fusion
- 给乱码区域做 mask
- Patch Replacer 采附近干净表面
- 在上面用 Text+ 合成正确文字

# Adobe After Effects
- 在 mask 区域 Content-Aware Fill
- 上层加正确文字
- Mocha 跟踪运动

# CapCut Pro
- Object Removal -> 涂掉乱码
- 加新 Text 元素
- 定位到清理后的区域

Step 5:兜底——接受装饰性的不可读

纯氛围背景招牌(小巷、远处广告牌),不可读的字读起来就是”氛围感外语”,观众接受。仅当文字是装饰、不承载信息时这样做。

# 决策规则:
- 主体文字(logo、标题、台词卡)?Step 2 或 3 修。
- 背景氛围字(霓虹招牌、远处海报)?可以保留。
- UI / 按钮字(手机屏、电脑屏)?后期必须重做。

预防

  • 一开始就把视频和图形当两个层来规划。
  • 专门为后期加字而生成留白表面的 AI clip。
  • 在剪辑软件里建一套品牌字模板。
  • 把 Veo 3 / Sora 留给”画内文字不可避免”的镜头。
  • UI / 应用演示视频,屏幕内容用录屏或 mockup 在后期做,不要让模型生成。

标签: #ai-video #排查 #text-overlay