你写 a man running across a field 出来人腿向前蹬但身体往后移。或 pouring water into a glass 水向上流。或 picking up a phone 手穿过手机。
这是物理 / 动作一致性失败——模型知道动作标签但不知道动作机制如何分解。这是视频里最难修的问题之一,因为模型确实缺乏理解;你必须重度约束动作。
常见原因
按命中率从高到低:
1. 动词有多种合理解读
"jumping" —— 垂直跳?长距跳?开合跳?蹦床?
"throwing" —— 向前抛?向上扔?扔掉?
"reaching" —— 向前伸?向上?向旁边?
不写方向+目标,模型挑一种解读,可能机制错。
如何判断:动词没方向修饰。
2. 没写起止姿态
模型必须猜动作起点和终点。不写”start standing, end seated”,可能插值错。
如何判断:Prompt 有动词但没描述起始姿态或结束状态。
3. 动作涉及模型做不了的复杂物理
模型还搞不定:
- 真实水流
- 自然布料包覆
- 手-物精确互动(抓、握、放)
- 多步动作(做饭、打字、开车)
如何判断:动作涉及精细流体 / 布料 / 手部互动。
4. 一段塞多个动作
"a man walks to a chair, sits down, opens a book, starts reading"
4 秒里太多动作。模型困惑或跳节拍。
如何判断:Prompt 含 3+ 顺序动词。
5. 主体在画框边缘
起 / 终于画框边缘的动作解读模糊。模型看不见东西去哪了。
如何判断:起始帧主体靠画框边。
6. 动作信号冲突
"jogging slowly while sprinting forward at high speed"
或隐式冲突(graceful run vs frantic dash)。
如何判断:动作修饰词速度 / 强度不一致。
最短修复路径
Step 1:用明确方向的动词
# 差 —— 模糊
"jumping" → "jumping vertically straight up"
"running" → "running forward toward the camera"
"throwing a ball" → "throwing a ball to the right, ball moves off-screen right"
"reaching" → "reaching the right arm forward toward the table"
永远包含:方向 + 目标 / 终点 + 速度。
Step 2:写明起姿态和终状态
# 模板
"starts [pose], performs [action], ends [pose]"
# 例子
"starts standing with arms at sides, performs a single forward step,
ends with right foot in front, left foot back, arms still at sides"
# 物体互动
"starts with empty hands, picks up the red cup with right hand,
ends holding the cup at chest height"
Step 3:每段一个动作
# 差 —— 多动作
"a man walks to a chair, sits down, opens a book, starts reading"
# 好 —— 拆
Clip 1: "a man walks toward a chair, camera follows"
Clip 2: "a man sits down on the chair, settling pose"
Clip 3: "a man opens a book on his lap, looks down to read"
# 编辑器拼
Step 4:避开复杂物理动作
模型做不了就绕开:
# 倒水 —— 难
- 用"前"镜头(壶倾斜)+"后"镜头(杯满)
- 中间切
- 加细微水声维持连贯
# 手拿东西 —— 难
- 生成"手靠近物体"+"手已握住物体"
- 快切
- 不展示实际抓的过渡
# 多步做饭
- 一步一镜头剪到一起
- 不要一段画完整流程
Step 5:主体放画面中央,别贴边
# 差起始帧
- 主体在画框边,动作延伸出画外
# 好起始帧
- 主体居中或三分之一
- 动作在画框内有空间发生
- 动作需要空间时取景拉宽
Step 6:用 ControlNet 式动作参考
某些工具支持动作参考视频:
# Runway Motion Brush
- 直接在图上涂动作向量
- 精确指定哪部分朝哪移动
# Kling Motion Brush(类似)
- 类似能力
# 完全消除歧义
不支持 motion brush 的工具,简化 Prompt 接受少动作。
预防建议
- 新动词先在简单主体上测,看模型实际怎么做
- 默认每段一个动作;多动作镜头难成立
- 维护”模型能做好的动词”和”避免的动词”两份清单
- 复杂物理用切代替全程渲染