AIGC:text2img - 文生图

当前手头上的定制化项目,可用训练数据较少,训练的模型效果不佳。所以通过 clip-interrogator 获取图片获取描述后,批量进行 文生图 以增加样本量。

在批量生成前,先简单评测一下当前的主流 文生图 模型。直接上效果:

MidJourney:

https://huggingface.co/spaces/mukaist/Midjourney

优点:基本上能完美复制参考图的场景设定

缺点:多人时,人脸有崩的问题, 不支持中文;闭源&付费

Stable Diffusion 3 Medium:

https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium

优点:开源&免费

缺点:多人时,人脸崩的非常明显,场景理解上也相对差一点,不支持中文

Kolors:

https://huggingface.co/spaces/Kwai-Kolors/Kolors

优点:开源&免费,支持中文

缺点:中文不稳定,人脸偶尔也会甭,速度慢

FLUX.1 schnell:

https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell

优点:开源&免费,速度快,整体效果上是最好的

缺点:不支持中文,显存占用大

相关推荐
AlbertZein2 小时前
Agent任务实测:谁能稳定跑完,谁只是看起来很强?
aigc·openai·ai编程
Token炼金师2 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
AlbertZein4 小时前
别被模型宣传骗了,真实 Agent 任务一跑就知道
aigc·openai·ai编程
小碗细面4 小时前
让 AI Agent 真正读懂你的资料:我开源了 source-skill-pipeline
aigc·ai编程·claude
刘棕霆5 小时前
30—AI Skill 怎么写才可测:Skill 编写规范与设计方法论
aigc·ai编程·测试
leeyi5 小时前
调试工具:Eino Dev 交互式调试
aigc·agent·ai编程
Darling噜啦啦5 小时前
拆解 LLM 的内部黑盒:从 Token 到 Self-Attention 的逐层解码之旅
llm·aigc
Token炼金师9 小时前
从节点图到低秩矩阵:ComfyUI 推理引擎与 LoRA 适配机制拆解
人工智能·aigc
武子康9 小时前
调查研究-210 Netflix 用 AI 复刻 Gene Wilder 的声音:语音克隆的下半场,不是模型,而是权利
人工智能·aigc·openai
石臻臻的杂货铺9 小时前
4 秒出图、10 美分视频,Google 新媒体模型来了
aigc