AI 角色运动工作流：告别 uncanny 抽帧

一套可复用的图转视频流程，让 AI 角色片动得自然：限运动、锁镜头、批量出。数据核对至 2026 年 6 月。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

角色运动是 AI 视频里最容易翻车的环节。脸在帧与帧之间闪烁，手指莫名增生，走路循环要么滑步要么抽搐，你精心设计的角色两秒后就变成了”远房表亲”。解决办法不是再堆一个形容词，而是一套纪律：一片只做一个运动、锁死镜头、用同一张参考图驱动所有镜头、再加一道狠下心的取舍。本文给你确切的工具、Prompt、成本和验收清单，数据核对至 2026 年 6 月。

一句话总结

永远从参考图开始，用图转视频，绝不用纯文本转视频。Runway Gen-4 用一张参考图就能跨镜头稳住角色身份；Veo 3.1 最多接受三张参考图。
一片一个运动，3-5 秒：走路、转头、坐下、伸手。绝不把多个运动拼在一起，也不要在角色运动上再叠镜头运动。
每条 Prompt 都锁镜头（fixed camera, no pan, no zoom, no dolly），否则工具会自动加推拉，把漂移叠加放大。
批量出 + 狠丢：大约每 5-8 条才出 1 条能用，按每镜头 6-10 次预算。
拼接幸存者：在 DaVinci Resolve / CapCut / Premiere 里拼，切点藏在转头或遮挡处，全片套同一个 LUT。

这篇适合谁看

独立动画、漫画与故事创作者、短片制作者，以及任何要做角色驱动 AI 视频、且需要让人物在画面里动起来又保持”还是同一个人”的人。

有两类活儿不适合这套流程：复杂的多角色动作（两人及以上的物理互动仍会崩），以及对既有音频的精确对口型。对话场景请先在这里出画面，再用专门的对口型模型加嘴部动作（见 FAQ）。

选哪个工具（2026 年 6 月）

Sora 消费端 App 已于 2026 年 4 月 26 日关停，对多数创作者来说不再是现实选项。当前做角色图转视频的主力阵容：

工具	模型（2026 年 6 月）	角色参考	图转视频成本	入门价
Runway	Gen-4 / Gen-4.5 / Gen-4 Turbo	单张参考图，身份保持约 95%	Turbo 5 credits/秒，Gen-4 与 4.5 12 credits/秒	Standard 年付 $12/月（月付 $15），每月 625 credits
Kling	Kling 2.5 / 2.6	参考图 + 起始帧	Kling 2.5 Pro 1080p 5 秒约 210 credits	Standard 约 $6.99/月，Pro $25.99/月
Luma Dream Machine	Ray 3（DM 2.0）	角色参考	原生 1080p，约为 Ray 2 的三分之一成本	有免费档；付费档起步低
Google Veo 3.1	Veo 3.1	最多 3 张参考图，自带同步音频	通过 Gemini App / Flow / Vids	Google AI Pro $19.99/月

实操默认：先用 Runway Gen-4 Turbo 迭代（5 credits/秒便宜到可以暴力跑），找到能用的构图和 Prompt，再把最好的两三个镜头用 Gen-4.5 重出做主镜头。需要同步音频、或想从多个角度稳住身份时，再上 Veo 3.1。

第一步 - 做角色参考图

用 Midjourney、FLUX 或 Nano Banana（Gemini 2.5 Flash Image）出一张正面、自然光、中景（腰部以上）的角色图，分辨率 1024×1024 或更高。把方括号占位替换成你的真实描述。

[角色描述：年龄 / 性别 / 穿着 / 发色 / 独特特征], neutral expression, looking at camera, medium shot from waist up, soft window light from camera-left, plain light gray studio background, sharp focus on face, 35mm lens, photo-realistic, 9:16

保存为 character_ref_v1.jpg，项目里所有片段都用这一张做图转视频的输入。复用同一张参考图正是脸保持一致的关键；每个镜头换一张新参考图，是身份漂移的头号原因。

第二步 - 一片只做一个运动

每个镜头里，图转视频的输入是参考图，文本是下面其中一条 Prompt。这四个运动在当前所有主流模型上都最稳，记住只保留一个运动。

侧角度走过画面（3 秒）：

character walks from left edge to right edge of frame, natural side-profile gait, one full stride per second (3 strides total), fixed camera, no zoom, no pan, character maintains identical face and clothing throughout, soft window light, plain background, 24fps, 3 seconds

转头看镜头（2 秒）：

character starts facing 3/4 right, slowly turns head toward camera, eyes meet lens at 1.5s, subtle smile, eyebrow micro-lift, no body movement, fixed camera, 2 seconds

坐下到椅子（4 秒）：

character is standing, looks down at chair, lowers body smoothly into seated posture, hands settle on knees, single fluid motion, no glitching limbs, fixed camera at chest height, side angle, 4 seconds

伸手拿物（3 秒）：

character extends right arm forward and slightly down to pick up a small object from desk, fingers close around object, brings hand back to neutral, no other body movement, fixed close-up on torso and arm, 3 seconds

第三步 - 用图转视频，不要纯文本转视频

纯文本转视频没有东西可以把脸锚住，身份必然乱飘。永远喂参考图。各家入口：

Runway：左侧栏 Generate → 选 Gen-4（或 Gen-4 Turbo）→ 在图像输入处上传参考图
Kling：首页 Image to Video 标签 → 上传参考图，选 Kling 2.5 或 2.6
Luma：generate 页 → 在 Dream Machine 里把参考图设为起始帧
Veo 3.1（Gemini / Flow）：把参考图作为 ingredient 加入，再写运动 Prompt

第四步 - 锁定镜头

每条 Prompt 强制写入以下任一句：

fixed camera, no pan, no zoom, no dolly
locked-off tripod shot, no camera movement
static wide shot, camera stationary

不写这句，模型会默认给一个 Ken Burns 推拉。这种镜头漂移会叠加在你的角色运动之上，变成 double drift：背景在滑，人物也在飘。同一时间只允许一个运动来源。

第五步 - 片长控制在 3-5 秒

身份在几秒内保持得不错，之后开始劣化。各工具默认时长：

Runway Gen-4 / Gen-4.5：基础 5 秒，可延长（角色镜头别延，超过约 10 秒身份会飘）
Kling 2.5 / 2.6：5 秒或 10 秒（角色镜头选 5 秒）
Luma Ray 3：5 秒
Veo 3.1：约 8 秒一段

要更长的节拍？出几段 5 秒再拼，切点藏在转头或遮挡瞬间——那里有点小跳变也看不出来。

第六步 - 批量生成，接受低命中率

每个运动用同一张参考图、同一条 Prompt 重跑 6-10 次。按大约 5-8 条出 1 条能用来规划。各家每片成本（2026 年 6 月）：

Runway Gen-4 Turbo：5 credits/秒 → 5 秒约 25 credits（按 $0.01/credit 加购价 ≈ $0.25）
Runway Gen-4.5：12 credits/秒 → 5 秒约 60 credits（≈ $0.60）
Kling 2.5 Pro：1080p 5 秒约 210 credits

也就是说，一个主镜头跑 8 次 Gen-4.5 大约 480 credits，预期出 1-2 条能用。先用 Turbo 迭代出构图和 Prompt，再把贵的 credits 只花在最终一轮。

第七步 - 每片都过验收清单

每生成一片，立刻过这 5 条。任何一条不过就丢，别想着救一个已经崩的镜头。

☐ 角色脸是参考图里那张脸（不是远房表亲）
☐ 衣服 / 发色 / 独特特征整片不变
☐ 手指数量正确，肢体没穿模到身体
☐ 步态自然（不是滑步或抽搐）
☐ 全片单一运动（没有"走着突然变成跑"）

第八步 - 拼成最终成片

选出每段运动的最佳幸存者，拖进 DaVinci Resolve、CapCut 或 Premiere：

切点放在转头或遮挡前的最后一帧，让接缝被藏住
段与段之间加 2-3 帧 cross-dissolve，化解微小的颜色跳变
全片套同一个 LUT，让分别生成的片段看起来像同一次拍摄

关于单片漂移的更多内容，见 AI 视频运动漂移修法和更全面的图转视频工作流。

容易踩的坑

长片里塞复杂运动：片越长越乱，漂移就越赢。缩短、简化。
镜头动和角色动一起来：运动来源只留一个。
远景里要面部表情：模型远处脸做不好，表情留给中景和近景。
不给参考图：纯文本角色运动难太多，几乎稳不住身份。
把片段延长到 10 秒以上：“延长”按钮很方便，也会把你的角色飘掉。改成拼接。

进阶技巧

同一角色的每一片都喂同一张参考图，这一张文件就是整个项目的身份锚点。
侧角度行走比正面或背面行走漂得少，因为模型要处理的肢体交叉歧义更少。
多角度场景里，Veo 3.1 支持同一角色最多三张参考图，能帮模型补出单张正面图覆盖不到的角度。
对话场景先出干净画面，再用对口型模型加嘴部动作，别让视频模型从零硬对口型。

FAQ

能一次生成 30 秒的角色独白吗？ 不稳定。身份和嘴型都会在 30 秒之前明显劣化。出 5 秒一段，再用切点把接缝藏在转头或停顿处拼起来。

哪个工具角色一致性最好？ 单张参考图的情况下，Runway Gen-4 在独立测试里身份保持最好（单参考图约 95% 一致性）。如果你有多角度参考图，Veo 3.1 最多三张的输入能给模型更多依据。

对口型怎么办？ 原生视频生成很少能精确对上既有音频。先在这里出画面，再过一个专门的对口型模型：Hedra 的 Character-3 在”说话照片”真实感上很强，Sync.so 在把对白对到既有素材上最准。如果你在生成阶段就写好对白，Veo 3.1 也能原生生成同步音频。

角色为什么片中途换衣服？ 几乎都是这几个原因：片太长、参考图缺失或分辨率太低、Prompt 没把服装钉死。把片长控制在 5 秒以内，用 1024px 以上的参考图，并在 Prompt 里加 maintains identical clothing throughout。

Sora 还能用吗？ Sora 消费端 App 已于 2026 年 4 月 26 日关停。API 运行到 2026 年 9 月 24 日，但对动手的创作者来说，现实选择已经是 Runway、Kling、Luma 和 Veo 3.1。

一句话总结

这篇适合谁看

选哪个工具（2026 年 6 月）

第一步 - 做角色参考图

第二步 - 一片只做一个运动

第三步 - 用图转视频，不要纯文本转视频

第四步 - 锁定镜头

第五步 - 片长控制在 3-5 秒

第六步 - 批量生成，接受低命中率

第七步 - 每片都过验收清单

第八步 - 拼成最终成片

容易踩的坑

进阶技巧

FAQ

相关阅读

相关文章

AI 解说视频实操：60 秒讲清一个概念

AI 音乐 MV 实操：30 秒卡点剪辑

AI 预告片实操：45 秒搭好张力弧

AI 视频电影感镜头工作流：命名镜头运动 + 一镜一意图

AI 产品商业视频：做出不一眼 AI 的 30 秒广告

短视频 prompt 怎么写：抖音 / TikTok / Reels / Shorts（2026）