AI 视频人物中途变成别人:原因 + 修复路径

AI 视频片头是 A、片尾突然变成 B——脸、衣服色、体型都换了,这是身份锚点不够强。本文讲怎么用具体描述、参考图、缩短片段三招把主体锁死。

片头是一个能识别的主体——人物、角色或者产品——片尾它变形成另一个明显不同的样子。脸变了、衣服颜色偏了、体型不一样了。这是”主体变形”,是 AI 视频里最显著的身份丢失。和漂移(渐变)的区别是:变形指主体直接变成了另一个实体。修复办法:强身份锚点、更短的片段、和合适的工具。

常见原因

按命中率排序。

1. 主体描述太泛

A young woman——训练数据里几百万张都能命中”年轻女性”。模型第 1 帧挑了一个,中段又往别的飘,因为 prompt 没锚定任何具体身份。

如何判断:数 prompt 里的具体身份描述(发色、年龄、衣着、显著特征)。不到 3 个具体特征就容易变形。

2. 片长超出身份一致性窗口

超过模型一致性窗口(大多数模型 3-4s),身份在数学上必然漂移。7-8s 变形可见、10s 主体常常已经是另一个实体。

3. 同框多人

模型要为每个人独立追踪身份。两个人或更多,跨帧时常常把哪张身份对应到哪个身体搞混。群像变形率最高。

4. 参考图里主体太小

图生视频时主体在参考图里占不到 30%,模型可用的锚点信息少,变得更快。

5. 中途让主体短暂遮挡的镜头运动

让主体短暂出画的摇镜、绕过物体的镜头——这种”先藏后揭”是变形最多发生的时刻。模型没了前帧参考,重渲出来就不一样。

6. prompt 没独特身份标记

A man wearing a suit at a desk 易变形。A balding middle-aged man with round glasses, navy blue suit, gold tie pin, working at a glass desk 抗变形——模型有可以回到的锚点。

7. prompt 里风格打架

Realistic but stylized like an anime character, painted with watercolor——三种风格在抢镜。模型取平均,平均最先破坏的就是身份一致性。

动手前先确认

  • 把参考图(如有)、完整 prompt、模型、变形输出都存好。
  • 找出变得最厉害的属性(脸、衣服颜色、体型)。
  • 想清楚用例容忍度:hero 镜头零变形;B-roll 可以容忍一些。
  • 记下片长、模型、是单人还是多人场景。
  • 改 prompt 前先备份。

需要收集的信息

  • 首帧和末帧并排,量化变形。
  • 完整 prompt、参考图(如有)、motion 设置、片长。
  • 模型名和版本。
  • 变形是稳定出现(结构问题)还是偶尔(接近 seed 运气)。

最短修复路径

Step 1:从文生视频换到图生视频

收益最大的一步。先用 Midjourney / SDXL / Imagen 出一张 1024x1024+ 的高质量主体图,再把这张 PNG 喂给视频工具的参考 / 图像输入:

  • Runway:拖到 “First Frame”
  • Pika:图像输入 + prompt
  • Kling:“Start Frame”
  • Sora:图生视频输入

参考图是文字单独提供不了的强身份锚点。

Step 2:每段片上限 3 秒

超过 3s 的镜头,规划成链式 3s 段:

  1. 原参考出 3s。
  2. 导出最后一帧。
  3. 作为下一段的参考。
  4. 重复到达全长。
  5. CapCut / Premiere 里拼接。

链式参考工作流能做到单镜头不可能的 10-20s 一致性。

Step 3:多人场景拆成单人镜头

prompt 里有多个人,每人单独一镜,再剪切:

Clip 1:男生单人,3s
Clip 2:女生单人,3s
Clip 3:男生单人,3s

对话靠剪辑器交替镜头组装。模型从不需要同时追踪两个身份。

Step 4:prompt 里加高度具体的身份标记

泛:

a young woman in a dress

具体:

a blonde woman with shoulder-length straight hair, blue eyes, 
small mole above the right eyebrow, red strapless dress, 
gold chain necklace, identity preserved across all frames

可作为锚点的细节:

  • 独特特征(痣、疤、雀斑、纹身)
  • 具体的发色、长度、发型
  • 具体的衣服颜色和单品
  • 一件独特配饰(眼镜款、饰品)

Step 5:避免会遮挡主体的镜头运动

身份关键镜头:

  • 不要让主体出画的摇镜
  • 不要绕到物体后面的镜头
  • 生成内不要快切
  • 静态或缓慢推镜头

Step 6:用 Runway Motion Brush / Kling 参考锁

两家都允许锁定特定区域(尤其脸 / 头部)。把脸刷成 “lock”,只让画面其余部分动。

Step 7:降 motion 强度

motion 越高,身份漂移越严重。用能让画面动起来的最低预设。

怎么确认已经修好

  • 首帧和末帧并排,主体明显是同一个。
  • 所有显著特征(发色、痣、衣服颜色)从头到尾保留。
  • 同事只看片(不看参考),能轻松匹配回参考图。
  • 同设置出 3 段,3 段身份都稳,不只是运气好那一次。

如果还是没修好

  1. 缩到 2 秒。2s 还变形就是参考图或 prompt 的问题,不是时长。
  2. 强化参考图——用更高分辨率重导、清晰的身份标记。
  3. 换身份保留更强的模型(Kling 1.6 高一致性模式,说话头就用 HeyGen / D-ID)。
  4. 商业交付必须保住身份时,接受 10s+ 单镜头还不可靠。用链式 3s 段合成。
  5. 求助前打包参考图、prompt、输出、变形时间点。

预防建议

  • 任何角色相关视频默认走图生视频 + 强参考。
  • 多人场景规划成单人镜头加剪切。
  • 任何超过 3s 的镜头都用链式参考工作流,不期待单镜头。
  • prompt 写高度具体的身份标记(3+ 个锚定脸 / 身材 / 衣着的细节)。
  • 按场景类型(说话头、动作、产品运动)标准化模型 + 工作流。

相关阅读

标签: #Prompt #排查 #排查 #视频生成