AI 视频最让人崩溃的就是”看起来很美,但动作一动就崩”。手指多一根、人转身脸变了、杯子从手里凭空消失。这是当下所有视频模型(Sora、Veo、可灵 Kling、Runway、MiniMax)的共同短板。本文给出 7 个真正能减少崩坏的实操方法。
问题是什么
- 人物走路腿数量变化
- 转头 / 转身后五官变了
- 手指数量变化(最经典)
- 物体在镜头里消失或瞬移
- 摄像机突然变焦或跳剪
- 衣服 / 头发”反物理”飘动
真正的原因
视频模型不是”理解了物理”,而是”在每一帧上做图像生成 + 时间一致性约束”。当你的 prompt 太抽象、动作太复杂或时长过长,模型的”一致性”就会断。要让动作连贯,必须减小模型每帧的”不确定区域”。
7 种让 AI 视频动作连贯的方法
按收益从高到低:
1. 用”图转视频”代替”文生视频”
最重要的一招。文生视频从 0 开始猜,图转视频从一张定好的图扩散出动作。差异巨大。
做法:
- 先用 Midjourney / Flux 生成一张满意的”开始帧”
- 上传到 Sora / Veo / 可灵 / Runway 做 image-to-video
- prompt 只描述动作和摄像机运动
这是当下”做不崩”的最高 ROI 操作。系列短片几乎都该这么做。
2. 时长控制在 4-6 秒
模型一致性最好的时长就是 4-6 秒。超过 8 秒断崩率显著上升。
做法:
- 单段 ≤ 6 秒
- 需要长视频就剪 5-8 段拼起来
- 每段都单独”图转视频”
3. 动作 prompt 写”一个动作”,不写”一连串动作”
错的:
A woman walks to the table, picks up a cup, drinks coffee, then smiles and looks out the window.
模型在 6 秒里要做 5 个动作,必然崩。
对的:
A woman slowly raises the coffee cup to her lips, soft motion, camera stays static.
每段视频只做一个动作,需要多个动作就分段。
4. 写明摄像机运动
很多人不写摄像机,模型就自己加各种”创意”运镜,导致一致性差。
做法:
Camera: static medium shot, no pan, no zoom.
或者明确:
Camera: slow dolly in, 0.5x speed, no rotation.
详细教程见 AI 镜头运动 Prompt。
5. 限定主体不动的细节
写明哪些不应该动:
The woman's hairstyle and clothing remain the same throughout the shot.
The background does not change.
听起来荒谬,但模型默认会”在不必要的地方搞创意”。
6. 避免高难度场景
下面这些场景目前几乎都会崩,能避开就避开:
- 多人交互(握手 / 拥抱 / 跳舞)
- 手部精细动作(弹琴 / 打字 / 写字)
- 透明 / 反光物体(玻璃 / 水 / 镜子)
- 文字 / 数字 / Logo 在画面里
- 动物多动作(猫跳上桌子)
变通方法:用图转视频锁住开始帧的关键细节,减少模型自由度。
7. 接力生成长视频
要做 30 秒视频,做法是:
- 段 1:图转视频 6 秒
- 取段 1 的最后一帧
- 段 2:以这帧为起点继续图转视频 6 秒
- 段 3:以段 2 末帧为起点
- 剪辑工具拼起来
这是当下做”长 AI 视频”的标准工序。
最短修复路径
- 改文生视频为图转视频 → 一动作崩→可用率提升 50%+
- 时长砍到 5 秒
- prompt 改成单个动作 + 静态摄像机
- 加”不变”约束
- 复杂场景拆分接力
只做前 3 步就能解决大部分”动作崩”问题。
哪些情况可能不是 Prompt 的问题
- 模型本身有局限(手 / 多人 / 文字目前都是公认短板)
- 你用的模型不是最新版本(升级到最新版差异巨大)
- 输入图本身就有问题(一张多手指 AI 图做图转视频,输出更崩)
- 在追求”超长 + 多动作 + 多人 + 文字”这种”地狱模式”组合
容易误判的情况
- 以为是 prompt 太短 —— 长 prompt 不一定好,关键词清晰更重要
- 以为是模型变差了 —— 多半是你给了它更难的任务
- 以为换模型就好 —— Sora / Veo / Kling 各有短板,没有”全能”模型
- 以为图转视频”束缚太大” —— 它就是为了束缚,束缚越多越稳定
预防建议
- 重要项目都先做”图 → 视频”工作流,不要懒省事用文生视频
- 写完 prompt 自己读一遍:动作多于 1 个就拆分
- 保存每段的”末帧”用来接力下一段
- 复杂场景先用占位图(如静物)跑通工作流再换最终图
- 关注模型版本更新,新版本对动作处理通常有显著改进
常见问题(FAQ)
Q:手指总是多一根,有办法吗?
A:把手藏起来或拉远镜头。摄像机离手部远,模型出错的”绝对量”就小。Prompt 加 hands not visible 或 hands tucked in pockets。
Q:Sora 跟 Veo / Kling 哪个动作连贯? A:各有所长。Veo 风景平稳、Kling 中文场景理解强、Sora 镜头运动美。具体用谁要看场景。
Q:图转视频的开始帧用什么图最好? A:构图简单、主体清晰、背景不复杂。复杂场景的开始帧会让所有后续动作都崩。
Q:能让 AI 视频里说话嘴型对上吗? A:当下大部分模型口型还不可控。需要对口型用 SyncLabs / HeyGen 等专门工具,或后期换嘴。
Q:动作连贯但景物在变怎么办?
A:在 prompt 里加 The background remains identical throughout the shot. Camera is locked. 并用静态摄像机。
相关问题
决策前的检查清单
- 如果错误是在某次改动后立刻出现,先回滚或隔离那次改动,不要同时试一堆无关修复。
- 如果只在生产环境出现,对比环境变量、build 产物、缓存、权限和平台设置。
- 如果只影响某个账号或浏览器,优先查权限、cookie、插件、额度和地区可用性。
- 如果有两个修复方向,先选最容易验证、最容易撤销的那个。
什么时候可以先停下来
当你无法复现、日志和 UI 互相矛盾、涉及账单或账号安全、或者每个修复都需要你没有的生产权限时,就该停止盲试并升级处理。向平台支持或同事求助前,把完整错误、时间点、项目 ID、复现步骤、截图和最近改动整理好。清楚的升级说明,通常比再猜一小时更快解决问题。
诊断流程
- 先复现一次问题,并写下准确路径。复现不了时,先收集证据,不要急着改设置。
- 判断影响范围:一个用户还是所有用户,一个浏览器还是全部浏览器,只在本地还是只在线上,新内容还是旧内容也受影响。
- 优先查最近一次改动。大多数排查不是寻找神秘根因,而是找出哪次改动制造了不一致。
- 把系统切成两半测:输入 vs 输出、本地 vs 线上、账号 vs 项目、源文件 vs 生成文件、prompt vs 模型。确认哪一半还在失败。
- 先做最小且可撤销的修复。不要同时改 DNS、权限、账单、部署和代码。
- 用原复现路径和一个相邻路径验证,再记录最终是哪一步修好的。
最小复现模板
问题:
- [完整错误或异常表现]
发生位置:
- URL / 工具 / 项目:
- 账号:
- 环境:local / preview / production
- 浏览器 / 设备:
复现步骤:
1.
2.
3.
预期结果:
-
实际结果:
-
最近改动:
- 代码:
- 配置:
- DNS / 权限 / 账单:
- Prompt / 模型 / 上传文件:
证据:
- 截图:
- Console error:
- 服务端或平台日志:
这些”假修复”别做
- 只清缓存,却不确认底层文件、权限、路由或设置是否正确。
- 明明是环境变量、凭证、额度或平台配置问题,却反复重装依赖。
- 一次改好几个无关设置,最后不知道到底是哪一步起作用。
- 从另一个框架或平台复制修复方法,却不确认路由、build 输出或鉴权模型是否相同。
- 没看 status page 和近期反馈,就把平台临时故障当成自己的 bug。
- ChatGPT prompt 优化
- Claude prompt 最佳实践
- 重构 prompt