AI 视频多角色身份中途互换修复

两个角色在镜头里中途身份对换。靠单角色合成、把两人都锁进图生视频首帧、或每个角色独立参考图来修。

你生成了一个双人镜头——左边女、红衣,右边男、蓝衣。第 3 秒他们走过一根柱子,再出现时男的穿红、女的穿蓝。或者两张脸直接换了。模型搞不清楚谁是谁了。这就是 identity-swap,是当前 AI 视频多角色场景里最难的问题之一。修复方式:每个角色单独生成再合成、用图生视频把两个人都锁在首帧、用支持每角色独立参考图的工具(Runway Gen-3 References、Kling references)。

常见原因

按踩坑频率排序。

1. 模型对每个角色的锚很弱

文生视频模型把 “a woman in red and a man in blue” 当成一袋属性来处理。一旦两人的像素混在一起(遮挡、近景、拥抱),模型就有自由把属性重新分配。

怎么判断:身份互换恰好发生在遮挡或近距离接触的瞬间。模型在两人重新出现时”重画”,分配错。

2. Prompt 没把两个角色拉开

“Two friends walking” 给不了模型任何锚。“A tall woman in a red coat with short black hair, walking alongside a shorter man with curly blond hair in a blue jacket” 锚就强得多。

怎么判断:再读一遍 prompt。光看 prompt 都分不出谁在哪边,模型也分不出。

3. 参考图里两人融在一起

图生视频的参考图把两个角色挤在同一区域、或剪影互相重叠。模型把它们当一个实体。

怎么判断:看参考图。你画不出两个分开的 bounding box,模型也画不出。

4. 动作本身要求互换位置

prompt 写了 “they switch sides as they walk”——模型确实照做了,但身份跟着换。编排镜头里很常见。

怎么判断:prompt 里有没有 “switch”、“pass”、“cross”、“exchange”。位置换可能把身份也带换了。

5. 双人镜头时长太长

5 秒双人通常没事,10 秒双人身份漂的几率三倍。跟单人漂同源,只是更严重。

怎么判断:4s 和 10s 各跑一版。4s 稳、10s 换,那就是时长在放大弱锚。

最短修复路径

Step 1:prompt 里把每个角色描述拉开

# 弱
"Two friends walking through a park."

# 强
"On the left, a tall woman in a red coat with shoulder-length black hair, 
walking next to a shorter man on the right in a blue jacket with curly blond 
hair. Maintain positions: woman always left, man always right. 
Maintain clothing: red on woman, blue on man, throughout entire clip."

# 用差异化的发色、身高、衣服颜色
# 在 prompt 开头和结尾各重复一遍分配

Step 2:每个角色单独生成再合成

最可靠的修复:

# 单独生成角色 A
"A tall woman in red coat walks through park from left to right, 
empty path, no other people, locked tripod."

# 单独生成角色 B(同场景)
"A shorter man in blue jacket walks through park from left to right, 
empty path, no other people, locked tripod, matching lighting and color grade."

# 在 After Effects 或 Resolve Fusion 合成
- 各自抠像
- A 在底层、B 在上层
- 调时间让他们在同镜出现
- 加地面影子把人固定住

Step 3:必须放一起就用图生视频把两人都锁在首帧

# 参考图清单
- 两个角色都清晰可见
- 剪影差异化(身高、发型、衣服)
- 空间分离干净、不遮挡
- 衣服颜色对比强

# 图生视频 prompt
"Continuation of the depicted scene. Woman in red stays on left throughout. 
Man in blue stays on right throughout. No swapping of positions or clothing. 
Maintain identities from reference frame."

# 生成最长 4 秒,越长换的风险越高

Step 4:用每角色独立参考图的工具

# Runway Gen-3 References
- 给 Character A 上传参考图
- 给 Character B 上传参考图
- 工具分别条件化
- 每个角色 strength 0.7-0.8

# Kling 2.0 Multi-Subject References
- 最多加 2 个主体参考
- 各自跟 prompt 里的描述绑定
- 短片好用,长片还是漂

# Pika Pikascene
- 多角色锚定
- 比纯文本多角色好

Step 5:避免遮挡,或者改写成单人镜头

身份漂改不掉,就改剪辑结构:

# 把一个双人镜头拆成两个单人
- Shot 1:女红衣走 (4 秒)
- Shot 2:男蓝衣走 (4 秒)
- 剪辑里切

# 或者双人镜头切在遮挡前
- 生成 6 秒
- 只用遮挡前的 3 秒
- 遮挡后丢弃

预防

  • 角色身份重要的镜头,默认走”单人生成 + 合成”。
  • 多角色场景里永远 prompt 出明显的视觉差异化(颜色、身高、发型)。
  • 避开需要遮挡、互换、近距离接触的 prompt。
  • 多角色 clip 锁在 4-5 秒以内,更长在后期拼。
  • 给每个角色建一套参考图库,方便后续镜头保一致。

标签: #ai-video #排查 #identity-swap