Sora vs Veo 新手指南：第一条 AI 视频（2026 年 6 月）

15 分钟做出你的第一条 AI 视频。2026 年 6 月 Sora 和 Veo 的真实入口、能跑通的 prompt 结构、片段长度上限，以及写实和超现实该选哪个。

发布于: 2026/05/17 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

大约 15 分钟，你就能做出一条 8 秒、自带同步音轨、看得过去的 AI 视频。但有个前提你得先知道：OpenAI 已经在 2026 年 4 月 26 日关停了 Sora 的消费者端（sora.com 和 ChatGPT 里的 Sora 工具），所以现在新手最省事的付费入口是 Google 的 Veo，从 Gemini 应用里进。Sora 2 还在，但只剩开发者 API，而且这个 API 会在 2026 年 9 月 24 日下线。下面讲清楚真实入口、四段式 prompt 公式、片段长度上限，以及写实风和风格化该怎么挑。

本文涉及的工具 / 概念：

Veo：Google 的文本到视频模型。当前一代是 Veo 3.1；在 Gemini 应用里现在归到 Gemini Omni 视频体验下。这是新手友好的入口。
Sora 2：OpenAI 的文本到视频模型。消费者端 2026 年 4 月 26 日已停，只剩付费 API，且 9 月 24 日下线。

2026 年 6 月，入口到底怎么走

注册任何东西之前先看这一节——2026 年初格局变了，大多数老教程现在都是错的。

Veo（新手走这条）

Veo 3.1 是 Google 的文本到视频模型。最简单的入口是 Gemini 应用里的视频工具，2026 年 5 月起它在消费者端挂的名字是 Gemini Omni（Gemini Omni Flash 接替了原来「Veo 3.1」的标签，同一个家族、换了前端）。需要付费的 Google 套餐：

Google AI Pro——每月 19.99 美元。每月含 1,000 个 Google Flow 积分，大约够 50 条 Veo Fast 片段，或约 10 条最高画质片段。新手基本选这一档就够。
Google AI Ultra——每月 99.99 美元。积分池大得多，适合重度使用。

另有两个开发者入口：Google AI Studio（免费预览额度，适合测试）和 Gemini API / Vertex AI（按秒计费）。截至 2026 年 6 月，Veo 3.1 在 API 上从约 每秒 0.03 美元（Lite、无音频）到 每秒 0.40 美元（全画质带音频）。新手用不着 API，Gemini 应用就够了。

Veo 最适合做的事：

真实物理、自然光场景：街拍、纪录片风、室内对话、阳光、风、水。
写实的口播镜头：人物说话 + 嘴型 + 环境声同时出，整体像纪录片一样真实。
真人和动物的拟真镜头：皮肤、毛发、面部表情比 Sora 更稳。

典型 prompt 示例：

一个老太太在巴黎街角咖啡馆，
看向镜头微笑说 "Bonjour"，
自然光，街道环境音，35mm 胶片质感，
镜头平视，固定机位。

Veo 的短板：强风格化和超现实变形上比较保守；每次生成上限约 8 秒（Gemini Omni 前端标到约 10 秒）；对名人脸、版权角色过滤较严。

Sora 2（现在只剩 API）

Sora 是 OpenAI 的文本到视频模型。截至 2026 年 6 月，已经没有面向消费者的 Sora 应用了——sora.com 和 ChatGPT 里的 Sora 工具在 2026 年 4 月 26 日停用，ChatGPT Plus / Pro 也不再包含视频生成。剩下的是 Sora 2 API，第三方工具可以调用，直到 2026 年 9 月 24 日下线。计费按输出秒数算：

Sora 2 API 档位	分辨率	每秒价格	可选时长
Sora 2（标准）	720p	0.10 美元	4、8、12 秒
Sora 2 Pro	720p	0.30 美元	10、15、25 秒
Sora 2 Pro	1080p	0.70 美元	10、15、25 秒

批处理（Batch）模式约半价，但要等 24 小时。对完全没有写代码环境的新手来说，Sora 不是起点——要么用包了它 API 的第三方应用，要么干脆用 Veo。

Sora 2 仍然最擅长的（通过 API 或封装工具）：

复杂运镜：推拉、跟随、低空航拍、一镜到底。
风格化镜头：金色时刻、35mm 胶片、霓虹赛博朋克、低饱和电影色。
抽象 / 超现实主体：玻璃破碎、流体、烟雾、形状变形、慢动作物理。

典型 prompt 示例：

一个穿红色风衣的女孩在东京雨夜霓虹街头慢慢回头，
slow motion，35mm 胶片质感，
镜头从齐腰高度缓慢推近，
霓虹倒影在湿润的地面上。

Sora 的短板：同一个人在多镜头里面部会变样；手指、手势、画面文字容易畸形；整体偏风格化，落地写实场景没有 Veo 那么稳。

一句话怎么挑

新人、想要最省事的付费入口 → Gemini 应用里的 Veo（Google AI Pro，每月 19.99 美元）。
想要落地的写实质感 → Veo。
想要电影感 / 复杂运镜 / 风格化或超现实，而且你能用封装了 API 的工具 → Sora 2（用到 9 月 24 日为止）。
两者现在都能一次生成同步原声（对白、音效、配乐），所以按画面风格、片段长度和价格来选，别再按「谁有声音」来挑。

这篇适合谁看

你从没做过 AI 视频，想今天就出第一条结果，又不想选错工具、或者为错的东西白白开一个订阅。

做出第一条片：具体步骤

先定范围。第一次只做 4-8 秒的一个镜头。Veo 每次生成约 8 秒，一镜一意。
写四段式 prompt：主体 + 动词 + 镜头运动 + 灯光。动词是让静态图变成视频的关键。可以加一行 dialogue: 或 ambient:，让模型连同画面一起生成同步音。
生成后一次只改一个变量：换主体、换运镜、换灯光、换风格——一次改一项，才能定位是什么让结果变好或变坏。
多段在剪辑器里拼（CapCut、Premiere、DaVinci Resolve 都行）。Veo 和 Sora 生成的片段都自带音轨，剪辑时注意别把音轨误删。

一次真实的练手节奏：3-4 次生成摸清 prompt 语法，再留 2-3 条好的，拼成 20-30 秒的序列。

容易踩的坑

第一次就做长片段：等一条 25 秒的渲染、结果还废了，比做三条 4 秒短测试浪费的积分多得多。
Prompt 没动词：「一个海边日落」是死镜头，加上「相机沿海岸线缓慢推进」才是视频。
只按声音挑工具：现在两个模型都能一次生成同步对白、音效和配乐，按画面风格和预算来选。
让 Veo 出超现实变形镜头：「玻璃人融化在霓虹里」在 Veo 里八成翻车，这种交给 Sora。
对比工具时同时改了 prompt 和模型：先固定 prompt 再换模型，否则不知道差异是模型还是 prompt 造成的。
照着 2025 年的教程「在 ChatGPT 里打开 Sora」：这个入口已经没有了——Sora 消费者端 2026 年 4 月 26 日就关停了。

FAQ

Q：完全不会写代码的新手，到底该用哪个？ A：用 Veo，从 Gemini 应用进，开 Google AI Pro 套餐（截至 2026 年 6 月每月 19.99 美元）。这是最省事的付费消费者入口，写实场景强，还能生成同步音。Sora 2 现在只剩 API，你得借助封装了它的第三方应用。

Q：还能在 ChatGPT 里用 Sora 吗？ A：不能。OpenAI 已在 2026 年 4 月 26 日停用 Sora 消费者端（sora.com 和 ChatGPT 里的工具），ChatGPT Plus / Pro 也不再含视频生成。Sora 2 API 还能给开发者和第三方应用用，但会在 2026 年 9 月 24 日下线。

Q：一条片最长能多长？ A：Veo 每次生成约 8 秒（Gemini Omni 前端标到约 10 秒）。Sora 2 API 标准档支持 4 / 8 / 12 秒，Pro 档支持 10 / 15 / 25 秒。无论哪个，都按 8 秒一个分镜来规划，再在剪辑器里拼。

Q：为什么生成出来的画面又僵又抖？ A：通常是两个原因之一：动作排得太满（「向左走、再转身、再坐下」），模型在 8 秒里排不开；或者把片段硬拉过了它的自然长度。把动作简化，时长压短。

Q：怎么让同一个角色在多镜头里保持一致？ A：两个模型在不同生成之间都会漂移人脸。用 image-to-video + 参考图锁脸；画面文字（招牌、字幕）在剪辑里后期叠加，别让模型直接生成；每个角色的描述在不同 prompt 里逐字保持一致。

一句话总结

2026 年 6 月，入口到底怎么走

Veo（新手走这条）

Sora 2（现在只剩 API）

一句话怎么挑

这篇适合谁看

做出第一条片：具体步骤

容易踩的坑

FAQ

相关阅读

相关文章

AI 解说视频实操：60 秒讲清一个概念

AI 音乐 MV 实操：30 秒卡点剪辑

AI 预告片实操：45 秒搭好张力弧

AI 角色运动工作流：告别 uncanny 抽帧

AI 视频电影感镜头工作流：命名镜头运动 + 一镜一意图

AI 产品商业视频：做出不一眼 AI 的 30 秒广告