图转视频完全不像原图:6 类原因 + 6 步修复路径

视频出来不像输入图?图像强度推满、文字 Prompt 砍短、源图至少 1024px 且主体占画面 40%+。

你上传一张特定的图到 Runway / Pika / Kling,写了 Prompt 要轻动作——出来的视频不太像你的输入图。主体略不同、光线变了、构图偏移。是”受启发于”你的图,而不是动画化它。

图生视频工具有多个旋钮控制对源图的严格度:图像强度 / 保真度、动作强度(稀释图)、文字 Prompt 权重(可能覆盖)、源图质量。各工具权重不同。

常见原因

按命中率从高到低:

1. 图像强度 / 保真度滑块太低

多数工具默认图像强度 0.5-0.6。这个程度模型会”创意解读”。要严格遵循 → 推到 0.8+。

如何判断:查工具图像强度。<0.7 = 必定漂。

2. 动作强度过高

高动作压过图像保真。即使图像强度满,动作 8 也会让主体变形。

如何判断:动作滑块在默认或更高——降。

3. 文字 Prompt 盖过图

某些工具(尤其 Runway、Kling)文字 Prompt 权重等于或高于图。描述性的文字会重写图中内容。

如何判断:你的文字 Prompt 描述了图里没有的东西(衣服、头发、表情)——它在和图打架。

4. 源图太小或质量差

512×512 参考的身份信息比 2048×2048 少。高分辨率给模型更多可用信息。

如何判断:源图短边 <1024px。

5. 源图里主体太小

主体只占画面 20% → 模型可锚定的像素少。主体应占 >40%。

如何判断:源图主体小——裁紧再上传。

6. 图是高度风格化 / 插画

动漫、绘画、草图源转视频比照片源差。模型必须”翻译”它们。

如何判断:源是插画;输出是不匹配的写实版本。

最短修复路径

Step 1:源图质量检查

# 源图清单
- 分辨率:短边 ≥1024px(1536+ 更好)
- 格式:PNG(不要重压缩的 JPEG)
- 主体竖向占画面 >40%
- 主体在焦内、清晰
- 光线清晰,无极端阴影遮挡特征

任一不达标先修源图。

Step 2:图像强度推到最高

# Runway Gen-3 Alpha
- 图像强度 → 0.8 到 1.0
- 或用"图生视频"严格模式

# Pika 2.0
- 强度 → 0.85+
- 或用"Image conditioning"模式

# Kling 1.6
- 图像强度 → max
- Reference faithfulness → high

# Hailuo / Luma
- 图像参考权重 → high / max

Step 3:动作降到最低

# Runway:motion 1-2
# Pika:0.2-0.3
# Kling:"subtle"
# Luma:low

动作越小 = 源主体变形越小。

Step 4:砍 / 清空文字 Prompt

反直觉但关键:文字越少 = 图像保真越高。

# 差 —— 覆盖图
"a beautiful woman in a red dress walking confidently through a vibrant city street, cinematic, warm sunset"

# 好 —— 只写动作提示
"slight head turn, gentle smile"

# 最好 —— 不写文字
""   # 空白;让图自己说话

文字保持在 5-10 词,只描述动作不重述主体。

Step 5:裁源图让主体占满

# 上传前
- Photoshop / Preview / Pixelmator 打开源图
- 裁让主体至少占画面 50%
- 长宽比有要求时用相近色补背景
- 重新存为高质量 PNG

Step 6:插画源用风格化视频模型

# 动漫 / 插画 → 视频
- Sora(处理插画好)
- Kling 1.6 "Stylized" 模式
- 试 "ChampVision" 或其他插画专用模型

# 强行转写实(如果你要这个)
- 接受源风格丢失
- 用 ControlNet 类参考只保留构图

预防建议

  • 上传前永远准备源图:≥1024px、主体占画面 >40%
  • 第一次生成默认最小动作 + 最大图像强度;只在需要时再加动作
  • 文字 Prompt 只写动作,不重述主体
  • 多段项目同源图,存好”已准备的源图”完全复用

相关阅读

标签: #视频生成 #排查 #排查