片头是一个能识别的主体——人物、角色或者产品——片尾它变形成另一个明显不同的样子。脸变了、衣服颜色偏了、体型不一样了。这是”主体变形”,是 AI 视频里最显著的身份丢失。和漂移(渐变)的区别是:变形指主体直接变成了另一个实体。修复办法:强身份锚点、更短的片段、和合适的工具。
常见原因
按命中率排序。
1. 主体描述太泛
A young woman——训练数据里几百万张都能命中”年轻女性”。模型第 1 帧挑了一个,中段又往别的飘,因为 prompt 没锚定任何具体身份。
如何判断:数 prompt 里的具体身份描述(发色、年龄、衣着、显著特征)。不到 3 个具体特征就容易变形。
2. 片长超出身份一致性窗口
超过模型一致性窗口(大多数模型 3-4s),身份在数学上必然漂移。7-8s 变形可见、10s 主体常常已经是另一个实体。
3. 同框多人
模型要为每个人独立追踪身份。两个人或更多,跨帧时常常把哪张身份对应到哪个身体搞混。群像变形率最高。
4. 参考图里主体太小
图生视频时主体在参考图里占不到 30%,模型可用的锚点信息少,变得更快。
5. 中途让主体短暂遮挡的镜头运动
让主体短暂出画的摇镜、绕过物体的镜头——这种”先藏后揭”是变形最多发生的时刻。模型没了前帧参考,重渲出来就不一样。
6. prompt 没独特身份标记
A man wearing a suit at a desk 易变形。A balding middle-aged man with round glasses, navy blue suit, gold tie pin, working at a glass desk 抗变形——模型有可以回到的锚点。
7. prompt 里风格打架
Realistic but stylized like an anime character, painted with watercolor——三种风格在抢镜。模型取平均,平均最先破坏的就是身份一致性。
动手前先确认
- 把参考图(如有)、完整 prompt、模型、变形输出都存好。
- 找出变得最厉害的属性(脸、衣服颜色、体型)。
- 想清楚用例容忍度:hero 镜头零变形;B-roll 可以容忍一些。
- 记下片长、模型、是单人还是多人场景。
- 改 prompt 前先备份。
需要收集的信息
- 首帧和末帧并排,量化变形。
- 完整 prompt、参考图(如有)、motion 设置、片长。
- 模型名和版本。
- 变形是稳定出现(结构问题)还是偶尔(接近 seed 运气)。
最短修复路径
Step 1:从文生视频换到图生视频
收益最大的一步。先用 Midjourney / SDXL / Imagen 出一张 1024x1024+ 的高质量主体图,再把这张 PNG 喂给视频工具的参考 / 图像输入:
- Runway:拖到 “First Frame”
- Pika:图像输入 + prompt
- Kling:“Start Frame”
- Sora:图生视频输入
参考图是文字单独提供不了的强身份锚点。
Step 2:每段片上限 3 秒
超过 3s 的镜头,规划成链式 3s 段:
- 原参考出 3s。
- 导出最后一帧。
- 作为下一段的参考。
- 重复到达全长。
- CapCut / Premiere 里拼接。
链式参考工作流能做到单镜头不可能的 10-20s 一致性。
Step 3:多人场景拆成单人镜头
prompt 里有多个人,每人单独一镜,再剪切:
Clip 1:男生单人,3s
Clip 2:女生单人,3s
Clip 3:男生单人,3s
对话靠剪辑器交替镜头组装。模型从不需要同时追踪两个身份。
Step 4:prompt 里加高度具体的身份标记
泛:
a young woman in a dress
具体:
a blonde woman with shoulder-length straight hair, blue eyes,
small mole above the right eyebrow, red strapless dress,
gold chain necklace, identity preserved across all frames
可作为锚点的细节:
- 独特特征(痣、疤、雀斑、纹身)
- 具体的发色、长度、发型
- 具体的衣服颜色和单品
- 一件独特配饰(眼镜款、饰品)
Step 5:避免会遮挡主体的镜头运动
身份关键镜头:
- 不要让主体出画的摇镜
- 不要绕到物体后面的镜头
- 生成内不要快切
- 静态或缓慢推镜头
Step 6:用 Runway Motion Brush / Kling 参考锁
两家都允许锁定特定区域(尤其脸 / 头部)。把脸刷成 “lock”,只让画面其余部分动。
Step 7:降 motion 强度
motion 越高,身份漂移越严重。用能让画面动起来的最低预设。
怎么确认已经修好
- 首帧和末帧并排,主体明显是同一个。
- 所有显著特征(发色、痣、衣服颜色)从头到尾保留。
- 同事只看片(不看参考),能轻松匹配回参考图。
- 同设置出 3 段,3 段身份都稳,不只是运气好那一次。
如果还是没修好
- 缩到 2 秒。2s 还变形就是参考图或 prompt 的问题,不是时长。
- 强化参考图——用更高分辨率重导、清晰的身份标记。
- 换身份保留更强的模型(Kling 1.6 高一致性模式,说话头就用 HeyGen / D-ID)。
- 商业交付必须保住身份时,接受 10s+ 单镜头还不可靠。用链式 3s 段合成。
- 求助前打包参考图、prompt、输出、变形时间点。
预防建议
- 任何角色相关视频默认走图生视频 + 强参考。
- 多人场景规划成单人镜头加剪切。
- 任何超过 3s 的镜头都用链式参考工作流,不期待单镜头。
- prompt 写高度具体的身份标记(3+ 个锚定脸 / 身材 / 衣着的细节)。
- 按场景类型(说话头、动作、产品运动)标准化模型 + 工作流。