你写 pouring water into a glass 出来水横着流。或 a flag waving in wind 布料以真实布料不可能的样子起伏。或 a ball rolling down a hill 球停顿、加速错、或短暂上滚。动作能认出,但物理不可能。
AI 视频模型从视频学习,但没有物理引擎。它看过很多倒水的例子,但不理解水永远向下流——它统计性地重建倒水”看起来像啥”。简单情况能成;边缘情况翻车。
常见原因
按命中率从高到低:
1. 模型物理理解有限
当前视频模型(Runway、Pika、Kling、Sora、Veo)物理都弱。难处理:
- 流体动力学(水、烟、火)
- 布料动力学(旗、披风、头发)
- 多物体碰撞(球、多米诺骨牌)
- 重力相关运动(下落、跳跃、坠下)
- 摩擦相关运动(滑动、表面滚动)
如何判断:你的镜头涉及任一项——预期有问题。
2. 动作复杂 / 多阶段
pours water from a kettle into a cup until full 包含:倾倒、流、累积、液面升高、停。五个物理时刻都要对。
如何判断:动作多个物理阶段。
3. 参考图和动作不匹配
你上传一张壶悬在杯上方的静图,要”pouring”。模型必须从单帧外推完整倒水过程——外推太多 = 错误空间太大。
如何判断:源帧没展示进行中的动作。
4. 工具 / 模型版本物理弱
Sora 和 Veo 当前比 Runway / Pika 物理好。更小 / 更老的模型更差。
如何判断:同镜头在 Sora / Veo 成、工具 X 不成。
5. 物体训练数据少
罕见物体(专业工具、科学设备、小众体育装备)训练数据少 → 物理更”发明”。
如何判断:镜头里的物体不常见。
6. 片段太长导致物理累积错
和其他漂一样,越长 = 越多累积物理错。
如何判断:开头物理好,结尾失败。
最短修复路径
Step 1:重新构思镜头绕开物理
最佳修复:不要让模型做它做不了的物理。
# 物理重的镜头用替代镜头
# 差 —— 直接物理
"water pouring from kettle into cup, water level rising"
# 好 —— 用切隐含物理
1. 手倾倒水壶(水流不可见)
2. 切到水位已高的杯子(已经满了)
3. 加"倒水"音效做感官连接
# 差 —— 直接碰撞
"ball bounces off wall and rolls"
# 好 —— 替代
1. 球飞向墙(接触前)
2. 切 —— 碰撞音效
3. 球已经在滚走
Step 2:生成静态状态镜头,剪辑里串起来
不可能渲染的物理:
1. 生成"前"状态(满壶悬在空杯上方)
2. 生成"中"状态(水正在倒中,无需真实运动)
3. 生成"后"状态(壶放下,杯满)
4. 用声效设计串起来
这是即使在物理好的平台上专业人也用的变通方法。
Step 3:工具支持就用参考视频
有类似物理的实拍:
# Runway Motion Brush / Pose tracking
- 某些工具允许从参考视频追踪运动
- 模型按你追踪的路径走,不是"物理想象"
# 绕过物理预测环节
Step 4:缩短片段
# 限制片段长度
- 物理问题累积;2-3s 是甜点
- 5s+ 难场景必定有可见物理漂
Step 5:换物理更强的模型
# 物理最强(2026 当下)
- Sora(水、基础动力学最佳)
- Veo(Google,类似)
- Kling 1.6(改进中)
# 较弱
- Pika 1.x
- 老 Runway 版本
# 注意:复杂物理连最强的也会失败
Step 6:商业项目合成真实物理到 AI 镜头
# 混合工作流
1. 生成不含问题物理的 AI 镜头
2. 拍或买真实物理素材(水、火等)
3. After Effects / Fusion 把真实物理合成到 AI 背景上
4. 用 rotoscope 或 mask 融合
广告、MV、任何高风险物理镜头的金标准。
预防建议
- 维护”模型能处理的物理镜头”和”避免的镜头”清单
- 物理重需求前期规划基于切的变通,不要等到生产中
- 高风险镜头先用 stand-in / proxy 测
- 高风险工作规划用真实物理元素合成到 AI 背景