图转视频工作流:让一张主图动起来不漂

高清参考图 + 保守运动强度 + 一句话动作描述 + 短片段拼接——Runway / 可灵 / Pika / Luma 都用这套,避免产品变形、第三秒长出第三只手。

这篇讲什么

Runway / 可灵 / Pika / Luma 这些 image-to-video 工具,都会乐意把你的主图变成 5 秒片段——但也会同样乐意让产品变形、人脸换脸、第三秒长出第三只手。这篇是一套经过实战的工作流:怎么准备参考图、怎么写运动描述、渲多长、怎么拼接,让动作出来同时原图特征不漂。

这篇适合谁看

只有一张图、需要动起来的人:要让主图动起来的电商,要做转头镜头的插画师,要把一张棚拍图剪成 15 秒广告的产品摄影。不要求剪辑经验,但要会基础裁剪和调色。

什么时候适合用

图就是 brief、动作就是交付物的场景。不适合:需要在多个主体间切换的镜头(用 text-to-video)、抽象美学短片(也是 text-to-video)、产品朝向必须像素级精确的(用 3D 渲染或真机拍)。

开始前准备

  • 把参考图升到长边至少 1536px。小图模型会编造细节,编造的细节就是漂移的起点。
  • 清理背景。杂背景会拉走焦点、训练模型去”诠释”而不是”保留”。
  • 提前确定运动类型:镜头运动、主体运动、环境运动(风、水)、VFX(发光、粒子)。第一次别混。
  • 在参考图本身就锁好画幅——别让工具裁剪或扩边,主体取景会丢。

具体步骤

  1. 高分辨率参考。 长边 1536-2048px,清晰、没压缩痕迹。JPEG 90+ 或 PNG。
  2. 保守的运动强度。 多数工具有 0-10 拨杆。产品 / 脸用 3-4,环境用 5-6,7+ 只留给风格化动效。
  3. 一句话描述运动。 “镜头轻推,产品保持居中,杯口微微冒蒸汽。“动什么、不动什么都要说。
  4. 短片段(2-4 秒)。 漂移随时长复利。渲 4 段 3 秒,不要渲 1 段 12 秒。
  5. 拼接 + 调色统一。 把素材拖进 DaVinci Resolve / 剪映。在最强那段定基准色,其余对齐。

能直接上场的 prompt 模板

[Reference attached] Subtle [camera/subject/env] motion: [6-10 字描述运动].
Keep subject identity, scale, and framing identical to reference.
No new objects, no morphing, no parallax background.
Duration: 3s. Style: photographic, neutral grade.

“no new objects, no morphing” 这句很有用——把潜空间往不再创造性诠释的方向拉。有人在镜头里就加上 “no third hand, no extra finger”。

什么时候应该放弃、重新拍图

有些图怎么都动不干净。快速识别信号:

  • 主体被自己的手或头发遮挡——模型会自己补,补错的概率高。
  • 多人同框——次要面孔几乎必漂。
  • 标签 / 招牌上的文字——基本必扭曲。
  • 反射(镜子、玻璃、水面)——会重新渲染、跟主体脱钩。

一张图同时占 2 条,先渲 1 秒测试再决定要不要砸预算。

建议的操作流程

参考图(升采样 + 清背景)-> 选运动类型 -> 保守强度 -> 3 秒片段 -> 渲 4 条 -> 选 1 条 -> 拼接 -> 调色对齐。一段可用 10 秒成片预算大约 15-20 分钟。超过 40 分钟,问题在参考图,不在 prompt。

FAQ

  • 产品为什么变形?: 运动强度太高,或者参考图太小。强度降 2、升采样、再来。
  • 能一次渲 10 秒吗?: 新版 Kling / Runway 可以,但超过 5 秒后画质几乎一定下滑。短段拼更干净。
  • 渲多少帧率?: 电影感 24fps,跟手机素材剪在一起的广告 30fps。多数工具默认 24。
  • seed 有用吗?: 有——如果工具暴露 seed,找到一个差不多对的 take 后锁 seed,只改 prompt 迭代。
  • 怎么做不漂脸的转头?: 用带 motion brush 的工具(Runway、Kling),只对头部加运动,身体不 mask 或设 0 运动。
  • 好片段能延长吗?: 多数工具支持 extend,但只能用一次。连续延长两次几乎必漂。

容易踩的坑

  • 强运动 + 长片段 = 漂移复利;渲短一点或者强度降下来。
  • 运动描述太空泛(“让它动”)——模型会选最容易的运动,通常是慢推镜头,主体被拍扁。
  • 混合运动类型——同时要镜头推、粒子特效、转头——三个都不好。
  • 跳过升采样——低分辨率参考的幻觉特别狠。
  • 单段调色而不是整段调色——每段都对,但剪在一起会割裂。
  • 信第一条——渲 4 条挑 1 条。

相关阅读

标签: #教程 #图转视频