这篇主要解决什么问题
AI 角色运动是视频生成最难的部分。脸抖、肢体 glitch、走路循环变形。修法:限制运动 + 限制镜头。
这篇适合谁看
独立动画、漫画 / 故事创作者,做角色驱动 AI 视频的人。
什么时候适合用
角色必须在画面里动——走、做手势、说话、反应。
什么时候不建议用
复杂多角色动作(仍超出 AI);对既有音频的精确对口型(用对口型工具,不要原生生成)。
具体步骤
工具:Runway Gen-3 / Kling / Luma Dream Machine / Pika / Sora(image-to-video 模式)。下面 Prompt 都直接复制,把 <...> 替换成你的真实信息。
-
先做角色参考图——用 Midjourney / FLUX / Nano Banana 出一张正面、自然光、中景(腰部以上)的角色图,分辨率 ≥1024×1024。Prompt 例:
<角色描述:年龄/性别/穿着/发色/独特特征>, neutral expression, looking at camera, medium shot from waist up, soft window light from camera-left, plain light gray studio background, sharp focus on face, 35mm lens, photo-realistic, 9:16保存为
character_ref_v1.jpg,后面所有片段都用这一张做 image-to-video 输入。 -
一片只编一个运动。下面是 4 种最稳的运动 + 直接复制 Prompt(image-to-video 输入 = 参考图,文本 = Prompt):
-
侧角度走过画面(3 秒):
character walks from left edge to right edge of frame, natural side-profile gait, one full stride per second (3 strides total), fixed camera, no zoom, no pan, character maintains identical face and clothing throughout, soft window light, plain background, 24fps, 3 seconds -
转头看镜头(2 秒):
character starts facing 3/4 right, slowly turns head toward camera, eyes meet lens at 1.5s, subtle smile, eyebrow micro-lift, no body movement, fixed camera, 2 seconds -
坐下到椅子(4 秒):
character is standing, looks down at chair, lowers body smoothly into seated posture, hands settle on knees, single fluid motion, no glitching limbs, fixed camera at chest height, side angle, 4 seconds -
伸手拿物(3 秒):
character extends right arm forward and slightly down to pick up a small object from desk, fingers close around object, brings hand back to neutral, no other body movement, fixed close-up on torso and arm, 3 seconds
-
-
必须用 image-to-video,不要纯 text-to-video。各家工具的 image-to-video 入口:
- Runway:左 sidebar
Generative Video→Image to Video→ 上传参考图 - Kling:首页
Image to Video标签 - Luma:generate 页 toggle “Image start frame”
- Sora:上传参考帧到
Start frame
- Runway:左 sidebar
-
锁定镜头。在 Prompt 里强制以下任一句:
fixed camera, no pan, no zoom, no dolly locked-off tripod shot, no camera movement static wide shot, camera stationary不写这句,工具会默认给你 ken-burns 推拉,叠加角色动作就 double drift。
-
片长 3-5 秒。各工具默认时长:
- Runway Gen-3:默认 5s,可延 +5s(不要延,identity 会飘)
- Kling:5s / 10s(选 5s)
- Luma:5s
- Sora:5s / 10s / 15s(选 5s)
要更长就在剪辑里 3 个 5s 片段拼接 + 切点藏在转头 / 遮挡瞬间。
-
批量生成 + 留 1/8 命中率。一个运动跑 6-10 次(同一参考图 + 同一 prompt,每次重生)。各家平台 cost:
- Runway Standard:每 5s ≈ 10 credits(≈ $0.50)
- Kling Pro:每 5s ≈ 5 credits(≈ $0.20-0.30)
- Sora 1080p:每 5s ≈ 100 credits(看订阅)
预算 8 次 × 单价,留 1-2 个可用。
-
逐片过验收清单——每生成一片,立即过这 5 条,不过就丢:
☐ 角色脸是参考图里那张脸(不是远房表亲) ☐ 衣服 / 发色 / 独特特征整片不变 ☐ 手指数量正确,手指没穿模到身体 ☐ 步态自然(不是滑步 / 抽搐) ☐ 全片单一运动(没有"走着突然变成跑") -
拼接长片。选出每段的最佳一条,在 DaVinci Resolve / CapCut / Premiere 里拼:
- 切点藏在角色转头 / 物体遮挡前的最后 1 帧
- 段与段之间加 2-3 帧 cross-dissolve 化解微小颜色跳变
- 最后用 1 个统一的 LUT 套全片,让 8 个独立片段看起来同一拍摄
建议的操作流程
3 秒角色行走:参考图 → image-to-video → “从左走到右,每秒一步,固定镜头,柔窗光” → 8 个 → 2 个能用 → 选。
容易踩的坑
- 长片里复杂运动。漂赢。
- 镜头动 + 角色动一起来。选一个。
- 远景里要面部表情。AI 远处脸做不好。
- 不给参考图。纯文本角色运动难太多。
进阶技巧
- 同一角色多片用”同一张”参考图做 image-to-video。保持身份。
- 侧角度行走比正面或背面漂得少。
- 对话 / 对口型:先出画面,再用对口型工具叠音。
怎么验收输出
- 整片角色身份稳。
- 运动自然(无肢体 glitch、无跳帧)。
- 可见面部不抖。
- 一片单一运动类型。
- 用了参考图。
FAQ
- 能生 30 秒角色独白吗?: 不稳定。5 秒段拼接 + 切点藏接缝。
- 对口型怎么办?: 原生生成很少对得准。先出画面再用对口型工具叠音。