图转视频完全不像原图：6 类原因 + 修复路径

视频出来不像输入图？把图像保真度推满（Kling 的 Relevance / CFG）、文字 Prompt 砍到只剩动作、源图分辨率不低于输出且主体占画面 40%+。

发布于: 2026/05/17 更新于: 2026/06/18 作者: AI Productivity Guide Team 🌐 查看英文版本

你上传一张特定的图到 Runway / Kling / Pika / Luma，写了 Prompt 要轻动作，出来的视频却不太像你的输入图：主体略不同、光线变了、构图偏移。它更像是”受你的图启发”，而不是把这张图动画化。

最快的修法（约 70% 的情况有效）：把文字 Prompt 砍到只剩一句动作提示，动作强度调到最低，再喂一张分辨率不低于输出、主体占满画面的源图。文字 Prompt 在和你的图打架，是最常见的单一原因。如果你的工具有保真度控制（Kling 的 Creativity/Relevance 滑块、ComfyUI/WAN 的 CFG、或 denoise/strength 值），把它推向”跟随图像”那一侧。

图生视频工具有几个旋钮共同决定视频对源图的严格度：起始帧保真度、动作强度（会让主体变形）、文字 Prompt 权重（可能盖过图）、源图质量。各工具的权重不同，而且这些控件在 2026 年随模型更新挪过位置。

2026 年有哪些变化（先看这个）

旧教程里的模型名已经过时。截至 2026 年 6 月：

工具	当前模型（2026 年 6 月）	保真度 / 强度控制
Runway	Gen-4.5（求快用 Gen-4 Turbo）	没有字面上的”图像强度”滑块；保真靠”只写动作的 Prompt + `Fixed Seed`”。上传的图就是首帧。
Kling	3.0（2.6、2.5 Turbo 仍可选）	`Creativity` 对 `Relevance` 滑块（CFG）。要严格遵循就推向 `Relevance`。`Professional` 模式出最高保真度。
Pika	2.5 旗舰（2.2 仍在；两者都有 Pikaframes）	通过 “Image conditioning” 控制强度；Prompt 保持精简。
Luma	Dream Machine，基于 Ray3 / Ray3.14（Ray2 已退役）	首帧条件化；用”低动作 + 只写动作的 Prompt”来控制。Ray3.14 新增原生 1080p。

注意：OpenAI 的 Sora 消费版（sora.com 及 iOS/Android 应用）已于 2026 年 4 月 26 日停服，Sora 2 / Sora 2 Pro API 也将在 2026 年 9 月 24 日关停，之后 API 出图将完全停止。Sora 已不再是可用的图生视频目标，请改用 Kling、Runway 或 Luma。参见 OpenAI 的 Sora 停服说明。

常见原因

按命中率从高到低。

1. 文字 Prompt 盖过图

这是头号原因，也是大家最容易忽略的。现在每个主流工具都把文字 Prompt 当成强信号。一句描述性的 Prompt（“a beautiful woman in a red dress walking through a city”）等于在告诉模型去生成那个场景，于是它会很乐意覆盖掉你真实主体的脸、衣服和背景。Runway 官方对 Gen-4.5 的建议说得很直白：做图生视频时，Prompt 应描述画面的动作，而不是画面里有什么内容（这正是它和文生视频的区别——文生视频两者都要写）。

如何判断：你的文字 Prompt 描述了图里能看到的东西（衣服、头发、表情、场景）。它在和图竞争，而不是在让图动起来。

2. 图像保真度 / 强度太低

凡是有保真度控件的地方，默认值都偏”创意”。Kling 的 Creativity/Relevance 滑块默认在中间；要严格遵循就推到 High Relevance。在 img2img 式的本地流程里（WAN、LTX、ComfyUI），denoise/strength 的行为和纯文生成相反——做图生视频首帧时，你要的是高 CFG / 结构条件化，而不是用来做松散风格编辑的 0.2-0.5 区间。

如何判断：工具有 Relevance/CFG/strength 控件，且停在默认或中间值。调高它。

3. 动作强度过高

高动作会压过你设的任何保真度。即便图被锁住，高动作值也会在模型凭空编造运动时让主体变形——因为它根本没有这些运动的参考。

如何判断：动作滑块在默认或更高。第一次生成时降到最低。

4. 源图比输出分辨率还小

模型只能锚定在你给的像素上。如果你上传 512×512 却渲染 720p 或 1080p，模型会放大并重新编造细节。厂商建议（Runway、LTX）一致：输入分辨率应等于或大于输出。

如何判断：源图短边 < 1024px，或小于你的渲染分辨率。

5. 源图里主体太小

主体只占画面 20%，模型可锚定身份的像素就少。目标是主体占画面 > 40%。

如何判断：源图主体小。上传前裁紧。

6. 高度风格化 / 插画源

动漫、绘画、草图源转视频比照片源差，因为模型要去解读一种画风，而不只是让像素动起来。

如何判断：源是插画；输出却漂向一个不匹配原画风的写实版本。

最短修复路径

Step 1：检查源图质量

# 源图清单
- 分辨率：>= 你的输出分辨率，且短边 >= 1024px（1536+ 更稳）
- 格式：PNG（避免重压缩的 JPEG）
- 文件大小：不超过工具上限（Kling 会拒收大于 10 MB 的文件）
- 主体占画面 > 40%
- 主体在焦内、清晰
- 光线清晰；无极端阴影遮挡特征

任一不达标，先修源图再去碰工具设置。

Step 2：把文字 Prompt 砍到只剩动作

这是收益最高的一步。描述什么在动，绝不描述画面里有什么。

# 差 —— 覆盖图，重写你的主体
"a beautiful woman in a red dress walking confidently through a vibrant city street, cinematic, warm sunset"

# 好 —— 只写动作
"slight head turn, gentle smile, hair moves in light breeze"

# 也行 —— 只写镜头运动
"slow push-in, subtle parallax"

# 部分工具下最强遵循 —— 空 Prompt
""   # 让图自己说话；只在画面太静时再加动作

控制在 5-10 词，只写动作或镜头，不写主体。

Step 3：把保真度 / 强度控制推向图像

# Kling 3.0 / 2.6 / 2.5
- Creativity vs Relevance 滑块 -> 推向 Relevance（"High Relevance"）
- 用 Professional 模式（不是 Turbo）出最高保真度

# Runway Gen-4.5 / Gen-4
- 没有强度滑块：靠"只写动作的 Prompt" + 开启 Fixed Seed
- 首帧漂了就重摇 seed

# Pika 2.5 / 2.2
- 用 "Image conditioning"，Prompt 保持最少

# 本地 / img2img 流程（WAN、LTX、ComfyUI）
- 提高 CFG / 结构条件化；首帧 denoise 保持低

Step 4：动作降到最低

# Runway：最低动作 / 最简镜头 Prompt
# Kling：别写镜头运动词，让它做细微动画
# Pika：motion 0.2-0.3
# Luma：low motion

动作越小，源主体变形越小。确认主体被保住之后，再把动作加回来。

如果你只想让画面的一部分动（一张脸、一面旗、水面），用 Kling 的 Motion Brush 只涂出那块区域。没涂到的地方会锁定在源图上——这是既保住身份、又能出动作的最可靠办法。

Step 5：裁源图让主体占满画面

# 上传前
- 用 Photoshop / Preview / Pixelmator 打开源图
- 裁到主体至少占画面 50%
- 需要特定长宽比时，用相近色补背景
- 重新存为高质量 PNG，分辨率 >= 输出分辨率

Step 6：插画源要让模型匹配画风

# 动漫 / 插画 -> 视频
- Kling 配风格化 Prompt（它对插画风保留得不错）
- Luma Dream Machine 做风格化运动探索

# 如果你确实想要写实化转换
- 接受源画风无法保留
- 用参考/结构 pass（ControlNet 类）只保留构图

如何确认已修好

把输出停在第 1 帧。它应该和你上传的图视觉上一致（脸、衣服、背景都一样）。如果第 1 帧就不一样，说明模型从未尊重起始帧——重新检查保真度设置，并确认你是上传到图片槽而不是纯文字框。
拖到中段和结尾。主体身份（脸、头发、衣着）应保持。如果只在后半段漂，把动作再降低。
如果第 1 帧匹配、但整体观感变了，那是动作的问题——降动作，而不是降保真度。

预防建议

上传前把每张源图准备到 >= 1024px（且 >= 你的渲染分辨率），主体占画面 > 40%。
第一次生成默认用最小动作 + 最大保真度；只在画面太静时再加动作。
文字 Prompt 只写动作，绝不重述主体。
多段项目用同一张源图时，存好”已准备好的源图”，连同固定 seed（工具支持时）完全复用。

常见问题

为什么输出无视我的图、却跟着我的文字走？ 因为在多数 2026 年的模型里，文字 Prompt 的权重高于图。如果你的 Prompt 描述了主体，模型就会从头重新生成那个主体。把 Prompt 砍到只剩动作词，图就会接管。

哪个工具对源图遵循得最严？ 锁单一首帧的话，Kling 3.0（Relevance 滑块拉高、Professional 模式）和 Luma Dream Machine（Ray3 / Ray3.14）最稳定。Runway Gen-4.5 在你用”只写动作的 Prompt” + Fixed Seed 时，也能很好地守住首帧。如果要做精细控制，Kling 的 Motion Brush 可以只让一块区域动、其余冻住。

我的输入是 4K，输出还是漂，为什么？ 光有分辨率不够。检查三点：Prompt 别描述主体、动作别拉满、主体占画面要够大。一张完美的 4K 图，主体只占 15% 画面，模型一样没什么可锚定的。

源图需要和输出长宽比一致吗？ 尽量一致。比例不匹配会逼工具裁切或补边，可能切掉或重新取景你的主体。上传前把源图裁到目标长宽比（16:9、9:16、1:1）。

Sora 还能做图生视频吗？ 不能。Sora 消费版（sora.com 及手机应用）已于 2026 年 4 月 26 日停服，Sora 2 / Sora 2 Pro API 将在 2026 年 9 月 24 日关停；之后 API 出图会停止，账号数据也会被删除。把还需要的内容导出来，然后把工作流迁到 Kling、Runway Gen-4.5 或 Luma。