AI 视频 Prompt 基础：Veo、Kling、Runway 都需要的 6 个部分

2026 年每条 AI 视频 prompt 都要有的 6 个部分——适用于 Veo 3.1、Kling 3.0、Runway Gen-4.5 和 Sora 2。有结构，有真实数据。

发布于: 2026/05/17 更新于: 2026/06/05 作者: AI Productivity Guide Team 🌐 查看英文版本

一句话总结

好的 AI 视频 prompt 不是把图片 prompt 写长。它需要图片 prompt 从来没有的三样东西：运动语言（什么在动、怎么动）、镜头语言（镜头怎么走）、时间语言（第 1 秒和第 5 秒分别发生什么）。把这六个部分按正确顺序排好——主体和动作放最前——控制在 20-50 个字以内，废片率会明显下降。这篇给你结构，再给一个可直接复制的模板，Veo 3.1、Kling 3.0、Runway Gen-4.5 和 Sora 2 API 都能用。

为什么照图片 prompt 写的视频会失败

图片模型只渲染一个定格瞬间。视频模型要把中间每一帧都”编”出来，所以一条只描述”长什么样”、不说”怎么动”的 prompt，会让模型自己猜运动。结果就是主体几乎不动、镜头乱飘、最后一秒还会融掉。

解决办法是按时间来写。2026 年各家模型的 prompt 指南结论一致：先写主体和动作，明确指定一个镜头运动，整条 prompt 保持简短。Kling 官方 prompt 文档建议每条 prompt 控制在 20-50 个精准词、并且都带一个具名的镜头运动；写太长反而有害——多数视频模型超过大约 60-80 词就开始忽略细节。

这篇适合谁看

2026 年 6 月在用任何现代文生视频模型的人：Google Veo 3.1、Kling 3.0、Runway Gen-4.5，或 Sora 2 API。结构跟模型无关；不同的只是各家的限制和接入方式（见下表）。

一条能用的视频 prompt 的 6 个部分

按这个顺序写。主体和动作放最前，因为这是当前所有模型最先锚定的东西。

主体 + 动作（动词最关键）。 “一只红狐狸正在草地上走”好过”草地上的一只红狐狸”。一个静态名词短语等于告诉模型”什么都不该动”，于是真的什么都不动。一个主体，一个明确的动词。
镜头运动。 用模型训练过的真实摄影术语：固定镜头、缓慢推近（dolly in）、跟拍（tracking shot）、低空向左漂移、手持跟随、环绕（orbit）。具名的镜头运动是”看着专业 vs. 看着业余”最大的那个开关——2026 年各模型指南里凡是稳定出好片的 prompt 都带一个。
时长 + 时间指示。 “5 秒，一镜到底，主体在第 1 秒入画。“多数平台生成的是固定长度（Veo 3.1 每次 8 秒；Kling 3.0 单次 5-10 秒，更长靠 Extend），所以你的时间提示要对得上实际拿到的片长。
光线方向 + 风格。 三件事讲清楚：方向、色温、质感。“黄金时段，镜头左侧暖逆光，轻雾，胶片颗粒”和”阴天，柔和散射光”出来的感觉完全不同。光线方向对氛围的影响比任何单个词都大。
运动强度。 大多数工具有运动/动态强度的调节。越高每帧变化越大（适合动作戏），越低越稳（适合锁定的产品镜头）。高运动 + 长片 + 复杂主体，是漂移泥潭的经典配方。
构图。 “全景，主体在右下，左侧留出让它走进去的空间。“告诉模型主体在哪、空白在哪，运动才有地方去。

然后生成、分拣：盯三样——运动漂移（动作偏离意图地乱走）、主体跳变（主体在片中途变形）、镜头 glitch（接缝处扭曲）。出现任何一个就重 roll。视频的废片率远高于图片，做好”生几条留一条”的预期。

可直接复制的 Prompt 模板

用方括号占位符，按镜头逐项替换：

主体：[一个事物]
动作：[单一动词 / 运动]
镜头：[固定 / 缓推 / 跟拍 / 环绕 / 航拍漂移]
时长：[秒]，一镜到底
光线：[方向] + [色温] + [质感/氛围]
运动强度：[低 / 中 / 高]
构图：[取景] + [主体位置] + [留白]

填好的例子（5 秒产品 b-roll）：

主体：一只冒着热气的陶瓷咖啡杯
动作：热气缓缓向上飘
镜头：缓慢推近
时长：5 秒，一镜到底
光线：镜头左侧柔和窗光，暖色，散射
运动强度：低
构图：中近景，杯子居中，深色背景，右上留白

一个真实的工作流（5 秒 b-roll）

这是真正交付一条干净片子的样子，不是演示里的理想态：

用上面的模板写 prompt：主体 + 动作 + 缓推 + 柔和窗光 + 5 秒 + 低运动。
生成 3 个版本。干净主体大约 3 条里能用 1 条。
剪掉尾巴。模型常在最后约 0.5-1 秒退化，所以生得比需要的长，再把尾段切掉。
要做一组片：所有片的镜头语言保持完全一致。镜头运动统一，剪辑看起来才是有意为之，而不是跳来跳去。
要让同一个主体跨多条片出现？用参考图驱动（图生视频），别只用文字——纯文生视频没法在多次独立生成里保住同一张脸或同一件产品。

不同场景选哪个模型（2026 年 6 月）

按镜头选工具，别按热度选。下面所有数据均为 2026 年 6 月口径，变动频繁。

模型	最擅长	单段时长	分辨率	接入 / 起步价
Veo 3.1（Google）	跟 prompt、原生同步音频、对话	单次 8 秒，可扩展到约 140 秒	最高 4K	含在 Google AI Pro（$19.99/月）；也走 Gemini API / Vertex AI
Kling 3.0（快手可灵）	镜头运动、人物物理、商用最便宜	5-10 秒，可扩展到约 3 分钟	原生 4K	免费档（每天 66 积分）；付费 $6.99/月起
Runway Gen-4.5	平台内编辑 + 精细镜头控制	短片，靠编辑器拼	最高 4K	约 $15/月起
Sora 2（OpenAI）	物理、镜头运动	API：4/8/12 秒（Pro 到 25 秒）	最高 1080p	仅 API——标准档约 $0.10/秒（720p）

有一个重要变化要知道：OpenAI 已于 2026 年 4 月 26 日关停 Sora 消费端 App 和网站。 Sora 2 API 对开发者仍可用，但计划于 2026 年 9 月 24 日停服，所以如果你要选一个工具来长期搭建，Veo 3.1 和 Kling 3.0 是更稳的选择。（搭建步骤见 Sora / Veo 入门。）

容易踩的坑

写一大段。 超过约 60-80 词，多数模型会忽略后半段。目标 20-50 个精准词。
只说 “cinematic” 却不指定镜头运动。 你会拿到模型随机的”看着有电影感”默认值。把镜头运动说明白。
高运动强度 + 长片 + 复杂主体。 这组合就是漂移泥潭。降运动强度，或缩短片长。
把第一次生成当最终结果。 视频废片率高。按每条可用片预留 3 次以上生成来算。
忽略 Veo 的音频设置。 Veo 3.1 会从 prompt 生成同步的 48kHz 音频；想要静音或特定环境声，就明确写出来。

FAQ

2026 年哪个 AI 视频工具最好？ 看镜头。Veo 3.1 在跟 prompt 和原生同步音频上领先；Kling 3.0 在镜头运动和物理上最强、商用也最便宜（$6.99/月）；Runway Gen-4.5 胜在平台内编辑和镜头控制。Sora 2 现在只剩 API。定下来之前，先用其中两个在你自己的风格上实测。

为什么我的片在结尾会 glitch 或融掉？ 多数模型在一次生成的最后约 0.5-1 秒会退化。生得比需要的长，再在剪辑里切掉尾段。降低运动强度也有助于尾帧稳住。

单段 AI 视频最长能多久？ 2026 年 6 月单次生成口径：Veo 3.1 是 8 秒，Kling 3.0 是 5-10 秒，Sora 2 API 是 4/8/12 秒（Pro 到 25 秒）。更长的视频靠拼接或”Extend”——Veo 可到约 140 秒，Kling 拼段可到约 3 分钟。

能让同一个角色跨多条片保持一致吗？ 纯靠文字做不到稳定。用固定参考图做图生视频，或用模型自带的角色一致性功能（Kling 3.0 跨镜头保人物比纯文生视频强）。整组片的镜头语言保持一致，剪辑才干净。

视频 prompt 应该写多少字？ 20-50 个精准词。先主体和动作，带一个具名镜头运动，再写光线、运动、构图。写太长会被多数模型截断。

一句话总结

为什么照图片 prompt 写的视频会失败

这篇适合谁看

一条能用的视频 prompt 的 6 个部分

可直接复制的 Prompt 模板

一个真实的工作流（5 秒 b-roll）

不同场景选哪个模型（2026 年 6 月）

容易踩的坑

FAQ

相关阅读

相关文章

AI 解说视频实操：60 秒讲清一个概念

AI 音乐 MV 实操：30 秒卡点剪辑

AI 预告片实操：45 秒搭好张力弧

AI 角色运动工作流：告别 uncanny 抽帧

AI 视频电影感镜头工作流：命名镜头运动 + 一镜一意图

AI 产品商业视频：做出不一眼 AI 的 30 秒广告