当前手头上的定制化项目,可用训练数据较少,训练的模型效果不佳。所以通过 clip-interrogator 获取图片获取描述后,批量进行 文生图 以增加样本量。
在批量生成前,先简单评测一下当前的主流 文生图 模型。直接上效果:
MidJourney:
https://huggingface.co/spaces/mukaist/Midjourney
优点:基本上能完美复制参考图的场景设定
缺点:多人时,人脸有崩的问题, 不支持中文;闭源&付费

Stable Diffusion 3 Medium:
https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
优点:开源&免费
缺点:多人时,人脸崩的非常明显,场景理解上也相对差一点,不支持中文

Kolors:
https://huggingface.co/spaces/Kwai-Kolors/Kolors
优点:开源&免费,支持中文
缺点:中文不稳定,人脸偶尔也会甭,速度慢

FLUX.1 [schnell]:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
优点:开源&免费,速度快,整体效果上是最好的
缺点:不支持中文,显存占用大
