做配脚本的解释型视频，先从哪个 AI 视频工具上手？

想要口播和声音直接生进画面，Google Veo 3.1（在 Gemini app 里，Google AI Pro，$19.99/月）最省事。想要导演控制权、声音自己配，Runway Gen-4.5（$12/月起）是主力，而且一个面板里就能调 Veo 和 Kling 3.0。

2026 年 6 月单段 AI 镜头能多长？

Veo 3.1 单次上限 8 秒，Runway Gen-4.5 是 5-10 秒（可延长到约 16 秒），Sora 2 标准版是 4、8 或 12 秒。Kling 3.0 最长，Extend 功能可达约 3 分钟。再长就是在剪辑里把多次生成拼起来——这正是要建镜头清单的原因。

剧本里有 4 分钟独白，也用这套？

用，但分成 30-60 秒的段落，逐段套流程。一个 4 分钟 master 太笨重，而且没有模型能一次生出来。

怎么让角色跨镜头长得一样？

参考图胜过文字。在 Kling 3.0 里把 3-4 个角度图绑进 Element Library；其他工具就重复同一句风格句、复用 seed。见 [AI 视频风格一致性](/zh/articles/ai-video-style-consistency/)。

字幕怎么处理？

后期加。把字幕烤进生成会锁死时序；在编辑器里叠加可以不重渲染就改时间。

能用来做动画短片吗？

能，但配比要偏意象——动画本身就是现实之上的风格层，字面镜头分量更轻。

AI 工具教程

从剧本到 AI 视频：一套镜头级工作流

把成稿剧本变成 8-12 个节奏对的 AI 镜头：拆成镜头级 prompt，逐镜决定字面 vs 意象，再先剪音频后叠画面。工具、单段时长与价格更新至 2026 年 6 月。

发布于: 2026/05/17 更新于: 2026/06/05 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

你有一份写得满意的剧本，整段塞进 AI 视频工具，回来却是一串字面、stock 素材感的镜头，潜台词全丢了。修法不在换更强的模型，而在把剧本拆成镜头级 prompt，逐镜头决定要字面视觉（这句说啥就拍啥）还是意象视觉（这句的意思）。目标大约 60% 字面 + 40% 意象，每段都比需要的略长生一点，然后先把音频剪好，再把画面叠上去。这样一份 60 秒剧本约 90 分钟就能变成 8-12 个节奏对的镜头，含生成时间。

而且当前所有模型单次生成都只有几秒——Google Veo 3.1 上限 8 秒、Runway Gen-4.5 是 5-10 秒、Sora 2 标准版 4-12 秒——“一条片子一次生成”本来就不可能。镜头清单才是真正的工作。

这篇适合谁看

先写后画的作家和内容创作者：杂文型 essayist、视频播客主、独立影像人、做产品故事旁白的品牌营销、做解释型内容的教育者。剧本的声音或主题比制作质感更重要时，这套最有用。“字面 vs 意象”这套节制，正是把声音带进画面的关键。

什么时候适合用

剧本（旁白、独白、配音、对白）已成稿，需要配画面。
修改已交付的视频：在现有剧本上重新做镜头映射，可以只换弱画面、不重剪音频。
把播客或演讲片段二次包装成短视频。音频已剪好，只需 30-60 秒画面。

什么时候不建议用

纯即兴视觉、边写边构图的工作。视觉本身就是剧本的项目（先分镜再写的动画、MV）。画面必须是真实事件素材的纪录片。以及 AI 生成画面有版权或编辑伦理问题的项目——部分出版物仍拒收 AI 视觉，且各家主流模型的商用条款也不一样（下文细说）。

写 prompt 前先选模型

单次生成的时长上限决定了整份镜头清单的形态，所以先选工具。以下数据更新至 2026 年 6 月；定预算前请以厂商官方价格页为准。

工具 / 模型	单段最长	原生音频	消费端入口	API 参考价
Google Veo 3.1（Fast/Quality）	8 秒	有（对白 + 音效）	Google AI Pro $19.99/月（Gemini app + Flow，约 1,000 Flow credit）	约 $0.10-0.40 / 秒
Runway Gen-4.5	5-10 秒（可延长至约 16 秒）	无（后期加）	Standard 起 $12/月（约 625 credit）、Pro $35/月	25 credit/秒（约 $1.50/段）
Kling 3.0	较长，Extend 可达约 3 分钟	无	credit 包 / 订阅	约 $0.10/秒
Sora 2（标准版）	4 / 8 / 12 秒	有	经 ChatGPT Plus $20 / Pro $200	$0.10/秒（Pro 档更高）

实用解读：要旁白驱动的解释型内容、希望口播和声音直接生进画面，Veo 3.1（在 Gemini app 或 Flow 里）路径最简单。要最大导演控制权、要一块干净的无声底片自己配乐，Runway Gen-4.5 是主力，而且它的面板里同时挂着 Veo 3.1 和 Kling 3.0 Pro，可以一镜一引擎挑最合适的。要最长的单段镜头和强角色参考，Kling 3.0 占优。想在一次生成里就带声音和口型、又本来就在付 ChatGPT，Sora 2 也不错，但注意 OpenAI 现在只对 Plus 和 Pro 开放。

具体步骤

大声读剧本并计时。 标出适合切画面的时刻——通常 4-8 秒一处。标上时间戳，后面对齐时长用。
每个标记点标”字面”或”意象”。 具体名词适合字面；抽象论点和情绪 beat 适合意象。
校配比。 目标大约 60% 字面 + 40% 意象。太字面像幻灯片，太意象观众跟不上。把标好的剧本读一遍重新数。
每镜写一条 prompt。 请求的镜头长 = 剧本段长 + 0.5-1 秒剪辑缓冲。6 秒的句子配 7 秒生成——并且每段都要卡在所选模型的上限内（Veo 8 秒、Runway 5-10 秒）。
所有镜头略长一点生。 一遍生成接受 30-50% 重做率，抽象 beat 常要 2-3 次。在 Runway 这是真金白银（每生成秒 25 credit），所以批量提交、有意识地重做，别条件反射式重生。
先剪音频，再叠画面。 音频驱动切点，画面服务音频。这与剪实拍素材的顺序相反。
关声音过一遍。 视觉单独能讲出可辨识的故事，就够了；讲不清，说明 2-3 个镜头需要更强或换掉。

怎么保角色、场景跨镜头一致

跨镜头不一致，是”这片子是分段拼出来的”最大的破绽。三个具体杠杆，按可靠度排序：

参考图优于文字。 在 Kling 3.0 里，把角色 3-4 个不同角度（正、侧、侧脸）的图传进 Element Library，在 image-to-video 模式用 Bind Subject。视觉锚点比在十条 prompt 里用文字反复描述同一张脸稳得多。
每条 prompt 固定一句风格句。 把同一句子句——光线、镜头、调色、颗粒——逐字放在每条镜头 prompt 末尾。模型对一致措辞很敏感。
工具暴露 seed 时复用 seed。 复用 seed 会把连续生成推向同一观感。不是保证，但能收窄方差。

更深入的处理见 AI 视频风格一致性。

旁白：什么时候用 AI 够、什么时候不够

AI 旁白对多数解释型和社媒内容已经够用。ElevenLabs Starter $5/月就解锁商用权和即时声音克隆；Creator 档 $22/月给 10 万字符（约一小时多语种语音），超量按约每 1,000 字符 $0.30 计（2026 年 6 月数据）。OpenAI 内置的语音是另一个低门槛选项。重要品牌项目、或声音本身就是产品的场景，留给真人配音演员。

完成后检查

镜头数和你的标记密度对得上。60 秒剧本是 8-12 个镜头，不是 30，也不是 4。
字面 / 意象配比约 60/40。生成完再数一次——有些字面 prompt 生出来反而很意象。
每个镜头首尾各留 0.5-1 秒缓冲。没有帧边界上的硬切紧贴。
音频切和视觉切对齐误差在 100ms 以内。漂移了，大脑会读成”不同步”，哪怕你还说不出哪里不对。
关声测试能看出剧本主旨。如果非看字幕才懂，画面太意象了。
没有一个镜头横跨两个无关句子。每条 prompt 只服务一个 beat。

怎么复用这套流程

把”大声读 + 标点”这一步做成模板文档，两列：时间戳加文本、字面/意象加种子 prompt。
为你常做的主题（远程办公、AI 疲劳、创造力）建一个小型”已验证意象镜头” prompt 库。复用种子，调具体细节。
记录每类镜头的重做率。意象镜头要 3 次以上，说明 prompt 太虚——补具体视觉锚点。
做多集系列时，维护一份视觉词汇文档：角色、调色、重复母题。每条 prompt 都引用它，AI 镜头一致性更好。
每几周用当前模型版本重生一条已成功镜头。新版本持平或更好就迁移。

容易踩的坑

一句话一个画面。 句子作单位太小，一分钟 30 个切点，显得慌乱。
全字面。 视频像名词清单幻灯片。旁白已经在传字面信息，画面该干别的。
全意象。 观众丢线索。每 8-12 秒锚一个字面 beat。
不读出来就开始生。 错过自己写作的天然节奏，切点常落在短语中间。
让画面驱动切点而不是音频。 AI 镜头时长任意，跟着它切会把剧本剁碎。
prompt 写得超过模型能渲染的长度。 向 8 秒模型要 20 秒镜头只会被截断；把这个 beat 拆开。
跳过关声测试。 声音掩盖大量画面问题，关声立刻浮出来。

进阶技巧

对白多的剧本：特写（角色情绪）和全景（环境）交替。连续两个特写显得重复。
旁白偏意象——音轨已经在传字面。旁白用 50/50 甚至 40/60 字面/意象常常更稳。
访谈或播客片段：画面的工作是维持注意力，不是解释。偏氛围或抽象镜头。
带 CTA 的广告：结尾用字面产品镜头。意象结尾在点击率上明显更差。
发布前查商用条款：Veo 经 Google AI 付费档的消费端产出、Runway 付费档都覆盖商用，而免费档和带水印产出常常不行。

FAQ

做配脚本的解释型视频，先从哪个 AI 视频工具上手？ 想要口播和声音直接生进画面，Google Veo 3.1（在 Gemini app 里，Google AI Pro，$19.99/月）最省事。想要导演控制权、声音自己配，Runway Gen-4.5（$12/月起）是主力，而且一个面板里就能调 Veo 和 Kling 3.0。
2026 年 6 月单段 AI 镜头能多长？ Veo 3.1 单次上限 8 秒，Runway Gen-4.5 是 5-10 秒（可延长到约 16 秒），Sora 2 标准版是 4、8 或 12 秒。Kling 3.0 最长，Extend 功能可达约 3 分钟。再长就是在剪辑里把多次生成拼起来——这正是要建镜头清单的原因。
剧本里有 4 分钟独白，也用这套？ 用，但分成 30-60 秒的段落，逐段套流程。一个 4 分钟 master 太笨重，而且没有模型能一次生出来。
怎么让角色跨镜头长得一样？ 参考图胜过文字。在 Kling 3.0 里把 3-4 个角度图绑进 Element Library；其他工具就重复同一句风格句、复用 seed。见 AI 视频风格一致性。
字幕怎么处理？ 后期加。把字幕烤进生成会锁死时序；在编辑器里叠加可以不重渲染就改时间。
能用来做动画短片吗？ 能，但配比要偏意象——动画本身就是现实之上的风格层，字面镜头分量更轻。

一句话总结

这篇适合谁看

什么时候适合用

什么时候不建议用

写 prompt 前先选模型

具体步骤

怎么保角色、场景跨镜头一致

旁白：什么时候用 AI 够、什么时候不够

完成后检查

怎么复用这套流程

容易踩的坑

进阶技巧

FAQ

相关阅读

相关文章

AI 解说视频实操：60 秒讲清一个概念

AI 音乐 MV 实操：30 秒卡点剪辑

AI 预告片实操：45 秒搭好张力弧

AI 角色运动工作流：告别 uncanny 抽帧

AI 视频电影感镜头工作流：命名镜头运动 + 一镜一意图

AI 产品商业视频：做出不一眼 AI 的 30 秒广告