图片转视频 Prompt（通用）：10 套静图自然动起来模板

Q: 现在哪个工具图转视频最强？

截至 2026 年 6 月：**Kling 2.6** 和 **Runway Gen-4.5** 在真实人物动作和脸部上领先；**Veo 3.1** 胜在物理真实感和原生音频；**Hailuo 2.3** 性价比最高且原生支持中文。Sora 2 物理很强但现在只剩 API。建议拿你的具体那张图在其中两个上各跑一次——结果随原图差别很大。

Sora 2、Veo 3.1、Kling 2.6、Runway Gen-4.5、Hailuo、Pika 图转视频实操：人物呼吸、风吹发丝、镜头推拉、环境粒子——10 套结构化 Prompt 模板，附 2026 年 6 月版本与价格对照表。

发布于: 2026/05/12 更新于: 2026/06/04 作者: AI Productivity Guide Team 🌐 查看英文版本

图转视频是当前 AI 视频里性价比最高的玩法：你已经有一张满意的图，只需要告诉模型”应该怎么动”。这一个改变就能干掉大部分”AI 味”——六根手指、帧间脸部漂移、道具凭空消失。下面这 10 套模板针对 2026 年 6 月这一代模型编写，文末还附了一张当下的版本与价格对照表，让你在烧 credit 之前就选对工具。

一句话总结

给模型一张干净的首帧，然后只描述一个动作、镜头行为和什么不能变。控制在 1-3 句。
图转视频里短 Prompt 永远赢长 Prompt。长段落会跟首帧”打架”，引发漂移。
单个英雄镜头：Kling 2.6 和 Runway Gen-4.5 在真实人物动作和脸部上最强；Veo 3.1 胜在物理一致性和原生音频；Hailuo 2.3 是最便宜的稳定选项，且中文 Prompt 友好。
主流工具单次生成 5-10 秒。要更长就用首尾帧续接，别指望一次渲染出长片。

图转视频 Prompt 的核心原则

只写动作，不写画面。

模型已经从你的图里拿到了人物、场景、光线、颜色。Prompt 要做的只有四件事：

主体动作（人物呼吸 / 转头 / 微笑 / 走动）
环境动效（风、雾、水、雪、粒子）
镜头运动（推拉摇移 / 静止）
持续时间与节奏（慢 / 中 / 快）

经验：图转视频的 Prompt 长度 25-60 词最稳。超过 100 词反而会让模型过度发挥，跟你固定的首帧对着干。

10 个可直接复制的 Prompt 模板

1. 人物静态写真 → 自然呼吸感

The woman gently breathes, soft chest movement, hair sways slightly in a breeze, micro eye blink at the 3-second mark, camera holds steady
Pacing: slow, subtle, lifelike
Duration: 5 seconds

适合：写真转动态海报、个人主页 banner。

2. 风景图 → 自然环境动效

Wind moves through the trees and grass, clouds drift slowly across the sky, distant water surface gently ripples, soft golden hour light shifts subtly
Camera: very slow dolly-in toward the horizon
Pacing: peaceful, slow
Duration: 6 seconds

drift slowly 和 gently ripples 是风景类的关键词。

3. 城市夜景 → 灯光与车流

Neon signs flicker subtly, car headlights stream across the street in soft motion blur, light reflections shimmer on wet pavement, occasional pedestrian walks through frame
Camera: slow pan from left to right
Pacing: medium, urban pulse
Duration: 6 seconds

夜景图最稳的动效就是车流和灯光闪烁。

4. 人物肖像 → 微笑转身

The character slowly turns her head to look directly at the camera, soft smile gradually forms, hair flows naturally with the motion
Camera: locked off, no movement
Pacing: slow and elegant, single hero motion
Duration: 4 seconds

转头 + 微笑是图转视频最经典的动作组合，几乎任何模型都能做好。

5. 食物图 → 蒸汽与液体

Steam rises gently from the hot coffee cup, surface liquid slightly ripples, light wisps of cinnamon dust float in the air, soft pendant light flickers
Camera: slow macro push-in toward the cup
Pacing: slow and intimate
Duration: 5 seconds

广告类美食图加蒸汽 + 推近镜头几乎是无脑出片。

6. 产品图 → 360 旋转或慢拉

The product slowly rotates 180 degrees, smooth turntable motion, light reflections shift across the surface, subtle dust particles drift in the air
Camera: very slow orbital movement around the product
Pacing: smooth, premium
Duration: 6 seconds

电商主图转视频用旋转或环绕镜头是最容易出”高级感”的方式。

7. 二次元人物 → 战斗气场

The character's hair flows dramatically as wind picks up, magical particles swirl around them, eyes glow brighter, cape lifts and ripples
Camera: very slow zoom-in toward the character's face
Pacing: building tension
Duration: 5 seconds

二次元角色的”气场”靠粒子 + 头发飘 + 眼睛发光三件套。

8. 国风图 → 落花与衣袂

Cherry blossom petals drift down gently across the frame, the character's robes and long hair sway in a soft breeze, sleeve ribbon flutters
Camera: extremely slow push-in
Pacing: serene, poetic
Duration: 6 seconds

drift down gently across the frame 比 falling petals 描述更精准。

9. 静物 / 极简画面 → 光影微变

Soft sunlight slowly shifts across the table surface, subtle dust particles drift in the light beam, a thin curl of steam rises from the cup
Camera: locked off, completely still
Pacing: meditative, slow
Duration: 7 seconds

极简风的关键：动作要”小到几乎察觉不到”，时长可以稍长。

10. 故事开场镜头（带情绪转换）

The character slowly looks up from her book, expression shifts from focused to startled, light from outside the window flickers as if a shadow passes by
Camera: slow dolly-in from medium to close-up
Pacing: building unease, narrative beat
Duration: 5 seconds

“情绪转换”是图转视频里最高级的玩法，关键是写明”前后两种状态”。

图转视频的 5 个稳定性原则

一镜头一动作：5 秒内只让画面发生一个主要变化。两个以上很容易乱。
避免快速动作：跑步、跳跃、剧烈手势这类现阶段模型还很难稳。
限定镜头：明确写 locked off / slow dolly in / slow orbit。Sora 2、Veo 3.1、Runway 默认都会带一点你不想要的漂移。
配合时长：在 Prompt 末尾写 Duration: 5 seconds, slow paced，明显提升节奏稳定性；5 秒是所有工具上最稳的长度。
固定 seed：Kling、Hailuo、Runway 都支持种子值，固定 seed 能在同一张图上反复迭代动作，不用重新抽风格。

容易踩的坑

Prompt 写成”画面描述”：写 a woman in a red dress in a forest 是给文生视频用的，图转视频已经有这张图了，应该写动作。
多人物多动作：让 3 个人同时做不同动作，几乎一定崩。改成 1 个主角 + 背景静止。
过度细节：写”她优雅地把杯子放下，看向窗外的雨，露出忧郁的微笑”——三个动作在 5 秒内会乱。
不指定镜头：让模型自由运镜常常出现奇怪的旋转 / 飞出。明确写 locked off 或 slow dolly。
硬要长度：单次生成基本就 5-10 秒，普通订阅档位强行要 15 秒以上画质会掉。

拼接长片的工作流

单次图转视频本来就短（见下表），长镜头是”接”出来的，不是一次渲染出来的：

用 Midjourney 或 Flux 出关键帧图。
跑图转视频，保存这段。
提取末帧，或直接用首尾帧功能——Kling 的 Start/End Frame、Pika 的 Pikaframes（可拉到约 25 秒）、Runway 都支持。
把这一帧当下一段的首帧，继续往后接。
在剪辑软件里转场、对色（CapCut、Premiere、达芬奇）。

完整续接流程和 seed 锁定细节见 AI 视频动作不连贯怎么办。

各模型版本、时长与价格对照（截至 2026 年 6 月）

工具	最新模型	单段时长	强项	入门价（个人）
Sora 2 / Sora 2 Pro	Sora 2	4/8/12 秒（Pro：10/15/25 秒）	物理一致性、Prompt 还原	仅 API——消费者 App 已于 2026-04-26 下线
Veo 3.1	Veo 3.1（Fast/Lite）	单次 8 秒	物理、原生声音	Google AI Pro $19.99/月（约 1000 Flow credit）
Kling	Kling 2.6 Pro	5-10 秒（Extend 可到 2-3 分钟）	真实人物动作、广告、中英文音频	Standard 起 $6.99/月
Runway	Gen-4.5	最长 60 秒	风格化动作、表情、音频	Basic $12/月
Hailuo（MiniMax）	Hailuo 2.3	最长 10 秒，1080p	性价比最高、中文 Prompt 友好	Standard $9.99/月
Pika	Pika 2.2	5/10 秒（Pikaframes 约 25 秒）	快速预览、转场	免费档每月 150 credit

说明：Sora 消费者 App（网页 + iOS）已于 2026-04-26 下线，Sora 2 仅以 API 形式存续，并计划于 2026-09-24 退役，已不再是当年那个随手就能用的选项。Veo 3.1 单次生成上限 8 秒，更长就得接。任何时候在排预算前都去官方价格页确认一次当前数字——这些档位基本每季度都在变。

外部参考：Runway 价格 · Kling 价格 · Pika 价格。

FAQ

Q：原图用多大分辨率最好？ 对齐模型的原生输出即可。多数图转视频模型出 720p 或 1080p，所以 1024x1024 或 1920x1080 的原图最合适。再高也会被缩小，反而可能引入伪影。比如 Hailuo 2.3 是 1080p 出 6 秒、768p 出 10 秒，喂它一张干净的 1080p 原图就好。

Q：现在哪个工具图转视频最强？ 截至 2026 年 6 月：Kling 2.6 和 Runway Gen-4.5 在真实人物动作和脸部上领先；Veo 3.1 胜在物理真实感和原生音频；Hailuo 2.3 性价比最高且原生支持中文。Sora 2 物理很强但现在只剩 API。建议拿你的具体那张图在其中两个上各跑一次——结果随原图差别很大。

Q：为什么我的人物总是中途脸崩？ 通常两个原因：片段太长（降到 5 秒），或者你要求了首帧支撑不了的动作，比如让只露后脑勺的图转成正脸。缩短、简化动作，并用更高分辨率的原图。

Q：怎么做超过约 10 秒的视频？ 接起来。用首尾帧功能（Kling Start/End Frame、Pika Pikaframes 可到约 25 秒），或提取末帧当下一段的输入。Kling 的 Extend 能把片段拼到 2-3 分钟。别让一次渲染硬扛 15 秒以上。

Q：能同时指定镜头运动和人物动作吗？ 能，但两个都要小。一个细微动作 + 一个慢镜头运动是稳定性的上限。两个都拉满会很快崩，所有当前模型都一样。

Q：怎么加声音？ Veo 3.1、Kling 2.6 Pro、Runway Gen-4.5 现在都能生成原生音频。不带音频的工具就在后期加（CapCut、Premiere、达芬奇）。

标签: #图转视频 #视频生成 #Prompt #镜头运动