一个 60 秒的解说视频应该让人看完想”哦,原来是这个意思”,而不是”刚才那是什么?“。AI 解说视频翻车的套路总是一样:先迷上了画面、再回头写脚本去配画面,结果概念根本没传到。这篇教程把顺序反过来:先脚本,再分镜,再让画面服务脚本,最后才录音。视觉用 Sora 或 Veo,配音用 ElevenLabs 或自带 TTS。出来的成品是观众能再放一次、然后转述给别人听的那种。
本文涵盖
脚本先行的解说视频流程:一个清晰的概念、3 段脚本(钩子 / 主体 / 收尾)、6-8 个分镜、按段落生成的画面、干净的旁白混音。工具:Sora 或 Veo 出画面,ElevenLabs 或你顺手的 TTS 出旁白,任意剪辑软件做合成。
这篇适合谁
把课程压缩成可传播短视频的老师;要向冷启动用户讲产品的创始人;有难懂概念要教的内容创作者;要把同一个概念讲一遍能反复用进 PPT 的咨询师。
什么时候用它
产品教育视频、新人引导开场、社交媒体解说帖、课程预告片、内部培训短片,以及面对不熟悉你术语的听众的任何说服场合。
开始前
- 把概念压成一句话写下来。如果一句话装不下,说明视频太宽,要拆。
- 标出受众的先验知识。60 秒视频默认了一个上下文水平,要明确写出你假设了什么。
- 选一个能解释这个概念的比喻。AI 画面在比喻具象时最稳:漏水的桶、两个叠起来的箱子、岔路口。
- 开始生成画面前确定旁白语种和语气。画面跟着语气走,不是反过来。
操作步骤
- 写一个 3 段脚本:钩子(10 秒,点出问题或抛悬念)、主体(40 秒,用比喻讲清楚)、收尾(10 秒,一句可复述的话)。读一遍计时,60 秒大约 250-300 个汉字。
- 分 6-8 个镜头。每个镜头服务旁白里的一个短语,不是一句。短语节奏对应剪辑节奏。
- 每个镜头的提示词要直白描绘比喻。别写”一个 X 的插图”,写动作:例如”一滴水落在玻璃面上,从顶视角看水波扩散,柔和日光”。
- 风格保持一致。选一种视觉调(干净 3D / 剪纸 / 摄影感)就一直用。60 秒里混风格看起来像 AI 崩了。
- 录旁白。ElevenLabs 的声音克隆给到 30 秒以上干净样本就能很自然。要”真人味”,那点钱请个真人配音也行,差不多就是三次 Suno 生成的钱。
- 合成:旁白在上层,画面按短语切点剪,背景音乐控制在 -18 dB。音乐要在、但不能抢台词。
首次练习
- 选一个你能用两分钟当面讲清楚的概念。压缩到读起来正好 60 秒的 250 字版本。
- 用笔在纸上分镜,6 格,每格对应一个脚本节拍。这一步别省,纸上画比改提示词快。
- 先用一个镜头试三种视觉调,挑最服务脚本的那种,然后用那种调出剩下的镜头。
- 上 TTS 之前先用手机录一遍自己的版本。听自己的语速比让 AI 评估稿子更能暴露脚本毛病。
质量检查
- 没听过这个概念的人,看完一遍能复述出来。找个人试。
- 全片视觉调一致。不要”这一段像 3D、下一段像 2D”。
- 切点落在短语边界,不要切在词中间。读起来卡的地方就重新剪。
- 音乐音量低于旁白。如果你能哼出音乐线,那它就太响了。
- 收尾那句要上屏幕字幕,不只是口播。能粘住的概念观众都会回读一遍。
怎么复用这套流程
- 把”钩子/主体/收尾”3 段模板存到笔记里,新概念 10 分钟就能套出脚本。
- 给你的领域建一个比喻库。可复用的比喻(漏桶、岔路口、叠箱子)能解释几十个概念。
- 存 3-4 个能稳定出”自家风格”的提示词当预设。新视频直接复用风格。
- 系列里保持同一个声音克隆或同一个真人配音员。声音一致是最便宜的”看起来更专业”。
推荐流程
一个概念 → 250 字、3 段脚本 → 6-8 镜头分镜 → 用统一风格写每个镜头提示词 → 每镜头 3 版选一 → 旁白用克隆声或真人 → 在剪辑里按短语切点合成 → 加一层背景音乐 → 收尾那句上字幕 → 导出 9:16 + 16:9。
容易踩的坑
- 看到一个炫的 AI 画面才决定要讲什么。先有概念再选画面。
- 一个视频塞两个概念。拆开,60 秒装一个能装得下,两个装不下。
- 视觉风格不一致。一段写实一段卡通看起来就是 AI 抽风。
- 默认 TTS 一遍过不调。调慢一点、加停顿、问题句重录。
- 音乐压过旁白。旁白是脚本,音乐是墙纸。
- 收尾没字幕。观众想再看一眼,只有音频会留不住。
常见问题
- 解说视频用 Sora 还是 Veo? —— 抽象比喻 Sora 稍好,有人物在场的镜头 Veo 更稳。按镜头挑,同一项目里如果风格不一致就别混。
- 脚本是我写还是 AI 写? —— AI 出初稿,你来改语气和节奏。终稿几乎都需要人过一遍。
- 一个 60 秒解说要多久? —— 脚本 20 分钟、分镜 10 分钟、画面 30-60 分钟、配音和剪辑 30 分钟。整体预算 2 小时。
- AI 旁白够用吗? —— 工具向内容够用。品牌和情绪向内容请真人,5 秒之内就能听出差别。
- 横竖屏怎么选? —— 9:16 给短视频、16:9 给嵌入。同一份脚本两种导出,几乎不用改文案。
相关阅读
- 短视频提示词写法
- AI 视频分镜实操
- AI 短视频脚本实操
- AI 数字人视频实操
- AI 视频提示词基础
标签: #sora #veo #explainer #教程