AI 视频脸中途变了:6 类原因 + 6 步修复路径

第 1 帧是 A,第 60 帧不是了?模型的身份一致性窗口大约 3-4 秒——锚定参考图、缩短片段、降动作强度。

你生成 6 秒人物说话片段。第 1 帧是你要的角色。到第 90 帧(约 3 秒)已经悄悄变成另一个人——头发服装类似,但眼睛、鼻子、下颌线变了。第 150 帧(5 秒)已经明显是另一个人。

这是身份漂移中专门发生在脸上的版本——人脸是观众注意力最强的区域,对小变化也最敏感。模型技术上从前一帧追踪身份,但在脸上误差积累很快——每像素信息量太大。

常见原因

按命中率从高到低:

1. 没身份参考图

纯文生视频没东西锚身份。每帧都有一部分是模型自己想的。

如何判断:你在用文生视频且没起始帧。

2. 片段超过模型的身份一致性窗口

多数视频模型大约 3-4 秒内身份稳定,再长就累积漂得快。6s+ 是自找麻烦。

如何判断:脸 2s 时还好、5s+ 漂——超出一致性窗口。

3. 镜头动作太大

剧烈镜头动作(推拉、快摇)迫使模型从新角度重导脸。每次重导加误差。

如何判断:片段有推拉、摇、移、dutch angle 变化。

4. 主体在运动(转头、走过镜头)

同上但主体动。侧脸镜头、动作多的主体漂得快。

如何判断:主体转头、横穿画框、或快速情绪变化。

5. 参考图分辨率低

参考图只有 512×512 → 模型可用的身份信息少。参考越大,可保留的信息越多。

如何判断:你的参考图 <1024×1024 或质量差。

6. 多主体竞争身份注意力

画面里两个人 = 模型要追两个。资源分摊,次要角色漂得严重。

如何判断:片段有多角色;次要角色漂得更多。

最短修复路径

Step 1:生成一张基准参考图,所有段复用

# 好参考图规格
- 正面或微三分之一侧脸
- 表情中性(无夸张笑或皱眉)
- 均匀日光,无戏剧阴影
- ≥1024×1024 PNG
- 存为 character_REFERENCE.png —— 不要重新生成

每段都用;不要项目中途换。

Step 2:在工具里设为身份锚

# Runway Gen-3 Alpha
- 图生视频 → 上传起始帧
- 可选:再上传结束帧加强锁

# Kling 1.6
- "图生视频"模式 → 参考图
- 有 "Character coherence" 就开

# Pika 2.0
- "Image input" 槽 → 参考
- 开 "Lock identity"

# Hailuo / Luma
- "参考图"上传
- 最高权重

Step 3:单段最长 3 秒

# 覆盖默认
- Runway:4s → 3s(或最短可选)
- Kling:5s → 3s 或在 3s 手动停
- Pika:3s 基准;不要 extend

# 长镜头策略
1. 把动作拆成 3s 节拍
2. 用同一参考分别出每个 3s
3. 编辑器里匹配末-首帧拼接

Step 4:降动作强度

# Runway:motion 5 → 3
# Pika:0.6 → 0.4
# Kling:"intense" → "smooth"
# Luma:high → medium

动作小 = 身份漂得慢。

Step 5:让脸大、居中

# 身份稳定的最佳构图
- 半身或中景特写
- 脸占垂直画框 >25%
- 脸大致面向镜头(避免全侧)
- 避免极端角度

Step 6:后期 upscale + 面部修复(漂得轻时)

只是轻漂且你已经投入这个片段时:

# 面部修复工具
- Topaz Video AI:Face Recovery 模式
- GFPGAN / CodeFormer(开源,本地运行)
- 工具支持时用原参考图作为目标身份

# 流程
1. Topaz Video AI 跑 Face Recovery
2. 参考图作为目标身份
3. 工具按参考逐帧重画脸

预防建议

  • 角色项目永远从一张高质量参考图开始
  • 脸关键镜头默认 3s;长 = 漂
  • 镜头运动设计得克制;戏剧化镜头留给非脸镜头
  • 主图镜头交付前在 Topaz 跑一道面部修复

相关阅读

标签: #视频生成 #排查 #排查