AI 产品图主体形变怎么解

Q: Midjourney 没有 ControlNet，这步怎么做？

Midjourney 里没法直接锁住有品牌的轮廓。用它配泛型占位出场景和灯光，再把真产品合成上去（Step 4）。`--sref` 控的是风格，不是产品几何。

AI hero 图里瓶身歪、包装弯、logo 边缘糊？真正管用的修法：用真品照走 ControlNet 锁轮廓，或者直接把真产品抠出来合成到 AI 背景上。

发布于: 2026/05/23 更新于: 2026/06/17 作者: AI Productivity Guide Team 🌐 查看英文版本

你出了一张产品 hero 图，灯光高级、背景像 agency 拍的，但瓶身本该是直边的地方有弧度，包装盒侧面有点波浪，正面 logo 糊成一坨近似形。对一个真实有品牌的产品来说，改 prompt 是修不好的：模型从没见过你的包装，它只能编一个看起来合理的假货。

最快又靠谱的修法： 别再用文字去生成产品本身。要么用真品照走一遍 ControlNet（Canny 或 Depth）在 ComfyUI / Automatic1111 里锁住轮廓；要么干脆不生成产品，把抠好的真品合成到 AI 出的背景上。商用稿里，合成这条路比硬把任何模型怼到完美都更快、更准。

常见原因

按命中率排序。

#	原因	典型迹象	主要修法
1	模型从没见过你的产品	每次重摇都给一个不一样的假轮廓 / 假标签	ControlNet 或合成（Step 1、4）
2	没有任何结构约束	轮廓一个 seed 一个样	ControlNet Canny/Depth（Step 1）
3	风格化和写实打架	重风格修饰一上，形状就垮	把风格从产品上剥掉（Step 3）
4	产品区域像素太少	只有产品在画面里很小时 logo / 标签才糊	重新构图给足像素（Step 2）
5	相机角度在训练数据之外	只在俯拍 / 极端角度时变形	用正面 / 四分之三侧
6	一张里有多个产品	组合图里每个单品都差一点	每个单品单独合成（Step 4）

1. 模型从没见过你的产品

扩散模型只把”瓶子""盒子""手机”当抽象类别，没办法仅凭文字还原你具体产品的轮廓、压花、标签布局。任何纯文字生成的有品牌产品图，都是模型在幻想一个合理的包装。绝大多数情况下，根因就是这个。

如何判断： 你是在用纯文字 prompt 出一个真实有品牌的产品吗？是 = 问题就在这，调多少 prompt 都没用。

2. 没有任何轮廓约束

模型从”瓶子”或”盒子”里挑一个泛型形状自由发挥。没有 ControlNet（Canny、Depth）或参考图，每张图轮廓都不同。

3. 风格化和写实打架

product photo of a Coke bottle in the style of Andy Warhol 会把瓶身往沃霍尔风格拉，轮廓就垮了。风格修饰和准确的产品几何在抢同一份生成预算。

4. 产品区域像素太少

压花 logo、小字、细长部分（手柄、瓶嘴、瓶盖）都吃像素。1024x1024 的瘦高瓶 hero 图，瓶子大约只有 200px 宽，撑不起标签清晰度。更高的基础分辨率会有帮助（FLUX.2 和 Midjourney V8.1 都能原生出 2K），但重新构图帮助更大。

5. 相机角度不在训练数据里

模型熟悉目录式正面和四分之三侧产品图。俯拍、虫眼仰拍、极端角度推到训练稀疏区，形状就变形。

6. 一张里有多个产品

六瓶装组合图、starter set 套件，要求每个单品都正确。即使有约束，单品之间也在抢精度预算，出错率成倍上升。

动手前先确认

想清楚到底要不要”真产品本人”出镜，还是”像产品的占位”够用。概念图能接受占位，商用稿不行。
把出问题那张图的 seed、prompt、模型、档位存下来，方便在同一基线上迭代。
至少准备一张干净背景的真品参考照。
用途确认。印刷比网页要求高；包装 mockup 要像素级正确的标签。

需要收集的信息

完整 prompt、模型、seed、sampler、步数、宽高比。
一张干净背景的真品参考照。
必须读对的关键特征（logo 位置、标签颜色、轮廓曲线）。
交付尺寸和用途（网页 hero、印刷海报、社交卡片）。

一步步修复

按 ROI 排序。Step 1 + Step 4 就是商用稿的标准生产流程。

Step 1：用 ControlNet 锁轮廓

最大幅度的动作是把纯文字换成从真品照来的结构约束。ControlNet 在开源权重那套里（Automatic1111、ComfyUI），Midjourney 这类托管 app 没有。

SDXL（A1111 / ComfyUI）： 用轮廓干净的产品照做 Canny ControlNet。control weight 从 1.0 起严格遵循；如果边缘看着像被描线、发平，往 0.7 降。
圆弧表面（瓶、罐）： 用 Depth ControlNet 而不是 Canny。Depth 跟曲面，Canny 只跟硬边缘。
FLUX.2（ComfyUI）： 用 Flux ControlNet Union（Shakker-Labs FLUX.1-dev-ControlNet-Union-Pro-2.0，或给 FLUX.2-dev 用的 FLUX.2 Fun Controlnet Union）。一个模型覆盖 Canny、Depth、Soft Edge、Pose、Grayscale，并能贴合输入的物体边界。预处理用 ComfyUI ControlNet aux。
Midjourney（V8.1，2026 年 6 月 10 日起为默认）： Midjourney 没有 ControlNet。最接近的工具是 --sref + --sw（风格）和图片 prompt。截至 2026 年 6 月，这些都不能可靠锁住有品牌产品的几何形状，所以 Midjourney 的产品准确度走合成（Step 4）。

ControlNet 锁住轮廓，模型负责灯光、环境、表面质感，形状是你的。

Step 2：给产品区域更多像素

挑能让产品占更多像素的构图：

瘦高产品 -> 竖比例。
横长产品 -> 横比例。
方正产品 -> 方比例。
环境不是主角的话，构图更紧。

然后对成片做放大，而不是一开始就出大图；产品几何在模型原生分辨率下更稳。

Step 3：去掉 prompt 里的风格打架

砍掉重艺术风格修饰。先放摄影描述：

product photography, studio lighting, sharp focus, clean background,
[产品描述], shot on Hasselblad

风格修饰推到背景和灯光上，绝不要落到产品表面。

Step 4：直接把真产品合成进去

这是商业 hero 图的标准生产流程，也是 Midjourney 这类托管工具唯一完全靠谱的路：

AI 出图时用泛型占位（“空白白瓶""空白盒”），把灯光和场景调对。
拿到 AI 的背景和灯光。
从真品照里把产品抠出来（Photoshop 的 Select Subject / Remove Background，或 rembg）。
把抠好的真品摆进 AI 背景里。
用一层柔投影对齐灯光方向，再对整幅画面套一层整体调色，让合成看起来浑然一体。

大部分商业 hero 活，这种做法比把 ControlNet 调到完美更快、更准。

Step 5：对产品区域 mask 重画

构图锁死、但形状还差一点：

mask 罩住产品区域。
走 img2img inpaint，保留 ControlNet。
denoise 降到 0.3-0.4，在保留轮廓的同时精修表面细节。

Step 6：换更强的模型

截至 2026 年 6 月，产品轮廓和标签：

FLUX.2 Pro 和 Midjourney V8.1 在产品几何和短标签文字上，明显强于 SDXL 原版和任何 SD 1.5 模型。
Ideogram v3（Quality） 标签 / logo 文字最稳（独立测试文字准确率接近 90%，领先一档）。
Imagen 4 在标牌、标签上把单词拼对最可靠。

把轮廓交给 ControlNet/FLUX，把画面里的文字交给 Ideogram v3，或者直接从真实素材里合成。

怎么确认已经修好

把生成图按同比例叠到参考图上，轮廓边缘应在几像素内对齐。
100% 看 logo 和标签，字母能读、拼写对。
包装盒的直边应该是直的，不能有波浪。
瓶 / 罐这种轴对称物，轮廓两侧应该镜像。
多单品组合，每一个都要过上面所有检查。

长期预防

任何商业产品稿，默认走 ControlNet + 合成，不要靠纯文字。
给每个会做 hero 图的产品维护一组干净参考照。
产品稿默认 FLUX.2 Pro 或 Midjourney V8.1，SD 1.5 直接弃用。
准备一段产品摄影 prompt 模板，把重风格修饰从产品本身上踢出去。
标签和 logo 永远走合成，从真品图或矢量文件里拿，品牌关键的文字别交给模型。

常见坑

重摇 20 次等模型把你产品画对。它不会的。
在 prompt 里加 accurate product shape 期待奇迹，几乎没用。
合成产品时不对齐灯光方向，合成感一眼能看出来。
忘了 100% 看标签。标签错在缩略图下是看不出的。

FAQ

Q：训一个 LoRA 能让模型学会我的产品吗？ A：SDXL 和 FLUX 都行。20-50 张产品照训出来的 LoRA，对轮廓和标签的保真度都很稳。经常出 hero 图的产品值得搭这个工作流，而且能和 ControlNet 叠用。

Q：ControlNet Canny 对透明玻璃瓶管用吗？ A：只能部分管用。Canny 检的是边缘，透明物边缘弱。玻璃和罐子改用 Depth ControlNet，或者训 LoRA。

Q：2026 年哪个模型出的产品标签最准？ A：标签文字可读性看 Ideogram v3（Quality），单词拼写看 Imagen 4。品牌关键的稿子，标签干脆别生成，直接从真实素材里合成。

Q：Midjourney 没有 ControlNet，这步怎么做？ A：Midjourney 里没法直接锁住有品牌的轮廓。用它配泛型占位出场景和灯光，再把真产品合成上去（Step 4）。--sref 控的是风格，不是产品几何。

Q：从零做包装 mockup 怎么办？ A：用专门的 mockup 工作流（Smart Mockups、Placeit，或 Photoshop smart object 模板）+ 叠 AI 出的标签。比让模型凭空发明包装干净得多。

Q：为什么我的 logo 出得几乎对但就是差一点？ A：logo 在模型里是被光栅化、只能近似还原的图像特征。品牌关键的稿子，永远在 AI 渲染之上叠真矢量 logo。