这篇讲什么
15 分钟做你的第一条 AI 视频——prompt 结构 + 长度。
本文涉及的工具 / 概念:
- Sora: OpenAI 的文本到视频生成模型。
- Veo: Google 的文本到视频生成模型,集成在 Gemini / Vertex 等产品里。
Sora 和 Veo 分别是什么、怎么用起来
Sora
Sora 是 OpenAI 的文本到视频生成模型。2026 年的入口有两个:sora.com(独立网站)和 ChatGPT 里的 Sora 工具,都要 ChatGPT Plus 或 Pro 订阅;Pro 用户可以生成更长的片段、走更快的队列、并发更多。
最适合做的事:
- 复杂运镜:推拉、横摇、跟随、低空航拍、一镜到底。
- 风格化镜头:金色时刻、35mm 胶片、霓虹赛博朋克、低饱和电影色。
- 抽象 / 超现实主体:玻璃破碎、流体、烟雾、形状变形、慢动作物理。
典型 prompt 示例:
一个穿红色风衣的女孩在东京雨夜霓虹街头慢慢回头,
slow motion,35mm 胶片质感,
镜头从齐腰高度缓慢推近,
霓虹倒影在湿润的地面上。
它做不太好的事:同一个人在多镜头里面部会变样;手指、手势、画面中的文字容易畸形;目前不能生成与画面同步的对白音轨(要靠后期配音)。
Veo
Veo 是 Google 的文本到视频生成模型,2026 年的主力是 Veo 3。入口有三个:Gemini 应用里的 Video 工具(要 Google AI Pro 或 Ultra)、Google AI Studio(开发者免费配额)、Vertex AI(企业 API)。Veo 3 当下最大的差异点:能根据画面直接生成同步的对白、环境音和配乐,Sora 现阶段还做不到。
最适合做的事:
- 真实物理 / 自然光场景:街拍、纪录片风、室内对话、阳光、风、水。
- 需要原声的镜头:人物说话 + 嘴型 + 环境声同时出,省掉后期对口型。
- 真人和动物的拟真镜头:皮肤、毛发、面部表情更稳。
典型 prompt 示例:
一个老太太在巴黎街角咖啡馆,
看向镜头微笑说 "Bonjour",
自然光,街道环境音,35mm 胶片质感,
镜头平视,固定机位。
它做不太好的事:风格化和超现实变形更保守;默认时长更短(多为 8 秒上下);对名人脸、版权角色过滤较严;不同入口的价格和配额差很多,企业 API 走 Vertex 计费更贵。
一句话怎么挑
- 想要电影感 / 复杂运镜 / 风格化 → Sora。
- 想要真实物理 + 同步原声 → Veo。
- 第一次玩,就用你已经付费的那个会员,别为了试模型再开一个订阅。
这篇适合谁看
AI 视频新人。
什么时候适合用
看完 demo 想自己试。
具体步骤
- 第一次只做 2-4 秒(Sora 默认 5 秒上下,Veo 默认 8 秒,都先做最短)。
- Prompt 写满四件事:主体 + 动词 + 镜头运动 + 灯光。Veo 还可以加一行
dialogue:或ambient:让它生成同步音。 - 生成后一次只改一个变量:换主体、换运镜、换灯光、换风格——一次改一项才能定位是什么让结果变好或变坏。
- 多段在剪辑器里拼(CapCut、Premiere、DaVinci 都可以)。Sora 生成的片段需要后期配音;Veo 的片段自带音轨,注意剪辑时别把音轨剪掉。
建议的操作流程
短片 → 调 → 下一段 → 剪辑。
容易踩的坑
- 第一次就做长片段:等 5 分钟生成 15 秒废片,比生成 3 个 3 秒短片浪费得多。
- Prompt 没动词:「一个海边日落」是死镜头,加上「相机沿海岸线缓慢推进」才是视频。
- 让 Sora 生成对白:现阶段 Sora 不出同步音轨,要带话的镜头放 Veo。
- 让 Veo 出强风格化超现实镜头:Veo 偏写实,硬要它生成「玻璃人融化在霓虹里」八成翻车,这种交给 Sora。
- 跨工具对比时同时改了 prompt 和模型:先固定 prompt 再换模型,否则不知道差异是模型还是 prompt 造成的。
FAQ
Q:Sora 和 Veo 选哪个? A:复杂运镜、风格化镜头、抽象 / 超现实主体选 Sora(ChatGPT Plus / Pro);真实物理 / 自然光、对白配音同步、真人拟真选 Veo 3(Google AI Pro 起)。Veo 3 当前最大差异:直接生成同步对白、环境音、配乐,省掉后期对口型。
Q:第一条片应该多长? A:5-10 秒。再短没法判断质量,再长漂移和成本一起涨。把第一条当“prompt 语法测试”——只测主体 + 简单运镜,不要上来就做电影感长镜头。
Q:为什么生成出来的人脸 / 文字总变形? A:Sora、Veo 当前都对手指、面部一致性、画面文字有结构性弱点。画面里的文字(招牌、字幕)后期叠加,不要让模型直接生成;多镜头同一角色用 image-to-video + 参考图锁脸。
Q:能不能生成包含真实公众人物的镜头? A:不能。Sora / Veo 都会拦截(OpenAI / Google 的 trust & safety policy)。要做“某位明星感”的镜头,改成原创角色 + 描述外貌特征(“30 岁短发亚裔男性”),不要用真名或直接图片参考。