图转视频是最容易上手、也最稳的 AI 视频创作方式:你已经有一张满意的图,只需要告诉模型”应该怎么动”。但 90% 的失败都来自一个根本错误——Prompt 写得像在描述一张图,而不是描述一段动作。本文给出 10 套面向 Runway Gen-3、Kling、Sora、Pika 和 Hailuo 的图转视频 Prompt 模板。
图转视频 Prompt 的核心原则
只写动作,不写画面。
模型已经从你的图里得到了人物、场景、光线、颜色信息。Prompt 要做的是:
- 主体动作(人物呼吸 / 转头 / 微笑 / 走动)
- 环境动效(风、雾、水、雪、粒子)
- 镜头运动(推拉摇移 / 静止)
- 持续时间与节奏(慢 / 中 / 快)
经验:图转视频的 Prompt 长度通常 30-80 词最稳。超过 100 词反而会让模型困惑。
10 个可直接复制的 Prompt 模板
1. 人物静态写真 → 自然呼吸感
The woman gently breathes, soft chest movement, hair sways slightly in a breeze, micro eye blink at the 3-second mark, camera holds steady
Pacing: slow, subtle, lifelike
Duration: 5 seconds
适合:写真转动态海报、个人主页 banner。
2. 风景图 → 自然环境动效
Wind moves through the trees and grass, clouds drift slowly across the sky, distant water surface gently ripples, soft golden hour light shifts subtly
Camera: very slow dolly-in toward the horizon
Pacing: peaceful, slow
Duration: 6 seconds
drift slowly 和 gently ripples 是风景类的关键词。
3. 城市夜景 → 灯光与车流
Neon signs flicker subtly, car headlights stream across the street in soft motion blur, light reflections shimmer on wet pavement, occasional pedestrian walks through frame
Camera: slow pan from left to right
Pacing: medium, urban pulse
Duration: 6 seconds
夜景图最稳的动效就是车流和灯光闪烁。
4. 人物肖像 → 微笑转身
The character slowly turns her head to look directly at the camera, soft smile gradually forms, hair flows naturally with the motion
Camera: locked off, no movement
Pacing: slow and elegant, single hero motion
Duration: 4 seconds
转头 + 微笑是图转视频最经典的动作组合,几乎任何模型都能做好。
5. 食物图 → 蒸汽与液体
Steam rises gently from the hot coffee cup, surface liquid slightly ripples, light wisps of cinnamon dust float in the air, soft pendant light flickers
Camera: slow macro push-in toward the cup
Pacing: slow and intimate
Duration: 5 seconds
广告类美食图加蒸汽 + 推近镜头几乎是无脑出片。
6. 产品图 → 360 旋转或慢拉
The product slowly rotates 180 degrees, smooth turntable motion, light reflections shift across the surface, subtle dust particles drift in the air
Camera: very slow orbital movement around the product
Pacing: smooth, premium
Duration: 6 seconds
电商主图转视频用旋转或环绕镜头是最容易出”高级感”的方式。
7. 二次元人物 → 战斗气场
The character's hair flows dramatically as wind picks up, magical particles swirl around them, eyes glow brighter, cape lifts and ripples
Camera: very slow zoom-in toward the character's face
Pacing: building tension
Duration: 5 seconds
二次元角色的”气场”靠粒子 + 头发飘 + 眼睛发光三件套。
8. 国风图 → 落花与衣袂
Cherry blossom petals drift down gently across the frame, the character's robes and long hair sway in a soft breeze, sleeve ribbon flutters
Camera: extremely slow push-in
Pacing: serene, poetic
Duration: 6 seconds
drift down gently across the frame 比 falling petals 描述更精准。
9. 静物 / 极简画面 → 光影微变
Soft sunlight slowly shifts across the table surface, subtle dust particles drift in the light beam, a thin curl of steam rises from the cup
Camera: locked off, completely still
Pacing: meditative, slow
Duration: 7 seconds
极简风的关键:动作要”小到几乎察觉不到”,时长可以稍长。
10. 故事开场镜头(带情绪转换)
The character slowly looks up from her book, expression shifts from focused to startled, light from outside the window flickers as if a shadow passes by
Camera: slow dolly-in from medium to close-up
Pacing: building unease, narrative beat
Duration: 5 seconds
“情绪转换”是图转视频里最高级的玩法,关键是写明”前后两种状态”。
图转视频的 4 个稳定性原则
- 一镜头一动作:5 秒内只让画面发生一个主要变化。两个以上很容易乱。
- 避免快速动作:跑步、跳跃、剧烈手势这类 AI 模型现阶段还很难稳定。
- 限定镜头:明确写
locked off/slow dolly in/slow orbit。不写时模型会自由发挥。 - 配合时长:在 Prompt 末尾写
Duration: 5 seconds, slow paced,明显提升节奏稳定性。
不同模型的特点(截至 2026 年中)
| 模型 | 强项 | 弱点 |
|---|---|---|
| Sora | 镜头语言、物理一致性 | 访问门槛、费用 |
| Veo 3 | 长镜头、自然环境、声音 | 部分场景过度”完美” |
| Runway Gen-3 | 艺术风格化、人物表情 | 长镜头偶尔不稳 |
| Kling | 真实人物动作、广告 | 复杂场景偶有崩坏 |
| Hailuo / MiniMax | 性价比高、中文 Prompt 友好 | 镜头语言不如顶级模型 |
| Pika | 快速预览、社交向 | 物理一致性偏弱 |
容易踩的坑
- Prompt 写成”画面描述”:写”a woman in a red dress in a forest”是给文生视频用的,图转视频已经有这张图了,应该写动作。
- 多人物多动作:让 3 个人同时做不同动作,几乎一定崩。改成 1 个主角 + 背景静止。
- 过度细节:写”她优雅地把杯子放下,看向窗外的雨,露出忧郁的微笑”——三个动作在 5 秒内会乱。
- 不指定镜头:让模型自由运镜常常出现奇怪的旋转 / 飞出。明确写
locked off或slow dolly。
下一步怎么改得更好
- 分镜剪辑:每张图只做一个稳定动作,5-6 张图 = 30 秒短视频。
- 统一节奏:所有镜头标
Duration: X seconds, slow paced相同的速度词。 - 音乐先行:用 Suno 或现成 BGM 先定节奏,按节拍切镜头。
- 配合稳定 seed:很多模型支持种子值,固定 seed 能在同一张图上反复迭代动作。
FAQ
Q:为什么我的图转视频人物总是脸崩? 两个原因:原图分辨率太低 / 脸部太小;动作太大(侧脸 → 正脸)。建议用 1080p 以上原图,转头幅度限制在 30 度以内。详见 AI 视频动作不连贯怎么办。
Q:怎么生成更长的视频? 当前主流模型单次生成 4-10 秒。要做更长视频:
- 用”末帧续帧”功能(Runway、Kling 都支持)
- 多段拼接,每段重新喂 Prompt
- 在剪辑软件里转场叠加
Q:用中文 Prompt 行吗? Kling 和 Hailuo 中文兼容很好,Runway 也可以。Sora 和 Veo 建议英文。
Q:图转视频和文生视频哪个更好? 图转视频几乎在所有情况下更稳。先用 Midjourney 出关键帧图,再图转视频,是当前性价比最高的工作流。
Q:怎么避免”AI 味”动作?
减少 zoom / rotation / 镜头自由飞行;用 locked off 或 very slow dolly;动作描述用 subtle 和 slowly 控制幅度。