AI 视频动作不科学:6 类原因 + 6 步修复路径

人向前跑腿向后、水往上倒、手穿过物体?动作动词模糊+物理不能凭模型猜——明确方向、目标、起止姿态。

你写 a man running across a field 出来人腿向前蹬但身体往后移。或 pouring water into a glass 水向上流。或 picking up a phone 手穿过手机。

这是物理 / 动作一致性失败——模型知道动作标签但不知道动作机制如何分解。这是视频里最难修的问题之一,因为模型确实缺乏理解;你必须重度约束动作。

常见原因

按命中率从高到低:

1. 动词有多种合理解读

"jumping" —— 垂直跳?长距跳?开合跳?蹦床?
"throwing" —— 向前抛?向上扔?扔掉?
"reaching" —— 向前伸?向上?向旁边?

不写方向+目标,模型挑一种解读,可能机制错。

如何判断:动词没方向修饰。

2. 没写起止姿态

模型必须猜动作起点和终点。不写”start standing, end seated”,可能插值错。

如何判断:Prompt 有动词但没描述起始姿态或结束状态。

3. 动作涉及模型做不了的复杂物理

模型还搞不定:

  • 真实水流
  • 自然布料包覆
  • 手-物精确互动(抓、握、放)
  • 多步动作(做饭、打字、开车)

如何判断:动作涉及精细流体 / 布料 / 手部互动。

4. 一段塞多个动作

"a man walks to a chair, sits down, opens a book, starts reading"

4 秒里太多动作。模型困惑或跳节拍。

如何判断:Prompt 含 3+ 顺序动词。

5. 主体在画框边缘

起 / 终于画框边缘的动作解读模糊。模型看不见东西去哪了。

如何判断:起始帧主体靠画框边。

6. 动作信号冲突

"jogging slowly while sprinting forward at high speed"

或隐式冲突(graceful run vs frantic dash)。

如何判断:动作修饰词速度 / 强度不一致。

最短修复路径

Step 1:用明确方向的动词

# 差 —— 模糊
"jumping"          → "jumping vertically straight up"
"running"          → "running forward toward the camera"
"throwing a ball"  → "throwing a ball to the right, ball moves off-screen right"
"reaching"        → "reaching the right arm forward toward the table"

永远包含:方向 + 目标 / 终点 + 速度。

Step 2:写明起姿态和终状态

# 模板
"starts [pose], performs [action], ends [pose]"

# 例子
"starts standing with arms at sides, performs a single forward step,
ends with right foot in front, left foot back, arms still at sides"

# 物体互动
"starts with empty hands, picks up the red cup with right hand,
ends holding the cup at chest height"

Step 3:每段一个动作

# 差 —— 多动作
"a man walks to a chair, sits down, opens a book, starts reading"

# 好 —— 拆
Clip 1: "a man walks toward a chair, camera follows"
Clip 2: "a man sits down on the chair, settling pose"
Clip 3: "a man opens a book on his lap, looks down to read"

# 编辑器拼

Step 4:避开复杂物理动作

模型做不了就绕开:

# 倒水 —— 难
- 用"前"镜头(壶倾斜)+"后"镜头(杯满)
- 中间切
- 加细微水声维持连贯

# 手拿东西 —— 难
- 生成"手靠近物体"+"手已握住物体"
- 快切
- 不展示实际抓的过渡

# 多步做饭
- 一步一镜头剪到一起
- 不要一段画完整流程

Step 5:主体放画面中央,别贴边

# 差起始帧
- 主体在画框边,动作延伸出画外

# 好起始帧
- 主体居中或三分之一
- 动作在画框内有空间发生
- 动作需要空间时取景拉宽

Step 6:用 ControlNet 式动作参考

某些工具支持动作参考视频:

# Runway Motion Brush
- 直接在图上涂动作向量
- 精确指定哪部分朝哪移动

# Kling Motion Brush(类似)
- 类似能力

# 完全消除歧义

不支持 motion brush 的工具,简化 Prompt 接受少动作。

预防建议

  • 新动词先在简单主体上测,看模型实际怎么做
  • 默认每段一个动作;多动作镜头难成立
  • 维护”模型能做好的动词”和”避免的动词”两份清单
  • 复杂物理用切代替全程渲染

相关阅读

标签: #视频生成 #排查 #排查