Stable Diffusion 3 真正来了

在人工智能应用领域,文生图(Text-to-Image)一直是一个重要的研究领域。通过将文本描述转换为对应的图像,广泛应用在艺术创作、广告设计、游戏开发等工作中。

在众多的文生图模型中,Stable Diffusion 因其高质量的图像生成能力、开源等特性,使得它在文生图领域独树一帜,赢得了广泛的关注。如今,Stable Diffusion 3 真正来了。

为什么说是真正来了呢?因为早在今年 4 月,Stability AI 就发布了 Stable Diffusion 3,但当时发布的并非开源版本,模型无法本地部署,只能通过 Stability AI 提供的 API 和服务来使用。2024 年 6 月 12 日发布的则是 Stable Diffusion 3 的 Medium 模型,拥有 20 亿参数。模型已经可以在 Huggingface 下载,国内很多网站也提供了镜像。

这次发布的 Medium 模型,也不是最新最强大的模型。毕竟 Stability AI 是一家商业公司,家底不能全部都无偿奉献出来。前段时间这家公司还爆出 CEO 出走、核心团队离职、亏损严重的新闻。不过 Stability AI 表示,未来还将开源 40 亿和 80 亿参数的大杯和超大杯版本。

如今,随着 Stable Diffusion 3 开源模型的发布,预示着国内图像生成技术会迎来新一轮的飞跃。

先回顾一下 Stable Diffusion 的优势。

  • 高质量图像生成

Stable Diffusion通过先进的扩散模型,能够生成更高分辨率、更加细腻的图像。无论是细腻的光影变化,还是复杂的纹理细节,都能做到逼真自然。其生成的图像常常令人难以辨别真假,这在许多应用场景中尤为重要,比如影视特效、广告设计等。

  • 开源与社区支持

Stable Diffusion 的开源特性使其具备了独特的活力和生命力。开源意味着透明与共享,全球开发者可以自由地访问、修改和微调模型。这不仅促进了技术的快速迭代和优化,也孕育了一个庞大且活跃的社区。社区成员之间的交流与合作,不断推动着技术的进步,使得 Stable Diffusion 能够快速响应用户需求,解决实际问题。

  • 灵活性与可控性

Stable Diffusion 赋予了用户极高的自由度。通过调整不同的参数,用户可以生成风格各异的图像,从写实主义到抽象艺术,无不囊括其中。这种灵活性不仅满足了个人用户的创意需求,也为企业用户在各种商业应用中提供了广阔的发挥空间。此外,用户还可以在模型的基础上进行二次开发,进一步优化和定制,以适应特定的应用场景。

  • 资源高效

相比一些需要庞大计算资源的模型,Stable Diffusion 以其高效的资源利用率赢得了广泛好评。得益于优化的算法和轻量级的架构设计,Stable Diffusion 能够在消费级显卡上高效运行。这意味着即便是个人开发者或小型团队,也能负担得起其所需的计算资源,从而在各自的项目中充分利用这项技术。

这次,Stable Diffusion 3 又带来了哪些令人兴奋的新功能呢?

  • 全新的 多模态扩散变换器 (MMDiT) 架构

与以往版本相比,MMDiT 采用独立的权重集分别处理图像和语言表示,从而提升了模型对文本的理解能力,并改善了文本生成效果:

独立权重集:MMDiT 架构使用独立的权重集来处理图像和文本信息。这使得图像和文本能够在各自的空间中进行独立的处理,同时也能相互影响,提升模型对文本的理解能力和图像生成效果。

双向信息流:MMDiT 允许信息在图像和文本token之间双向流动。这意味着,模型不仅可以根据文本生成图像,还可以根据图像生成文本,并能更准确地将文本信息融入到图像中,提升图像质量和文本遵循度。

Stable Diffusion 3 采用了一种新颖的 修正流 (Rectified Flow, RF) 公式,通过将数据和噪声在训练过程中连接成线性轨迹,实现了更直接的推断路径,从而使用更少的采样步骤就能生成高质量的图像。此外,Stable Diffusion 3 还引入了新的 轨迹采样调度,对轨迹中间部分进行加权,从而提高模型在训练过程中的预测能力。

  • 能力提升

与其他各种开放模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及 DALL·E 3、Midjourney v6 和 Ideogram v1 等闭源系统进行比较的结果表明,Stable Diffusion 3 在模型输出与给出的提示的上下文的接近程度("提示遵循")、文本根据提示的呈现效果("排版")以及哪幅图像的美学质量更高("视觉美学")等方面都表现优异。

  • 硬件要求进一步降低

在实际应用中,Stable Diffusion 3 的 80 亿参数模型可以在 RTX 4090 显卡上运行,并能够在 34 秒内生成分辨率为 1024x1024 的图像。这次开源的 Stable Diffusion 3 medium 模型,只有 20 亿参数,体积小巧,非常适合在消费级 PC 和笔记本电脑以及企业级 GPU 上运行。(在我的 Nvidia RTX 2080 Ti 上也能运行)

结语

Stable Diffusion 3 的发布,标志着图像生成技术又一次重大的飞跃。通过一系列新功能的引入,Stable Diffusion 3不仅在生成质量和速度上有所提升,还在用户体验和扩展性方面展现出强大的优势。

需要注意的是,开源模型可通过开放的非商业许可证和低成本的 Creator 许可证获得。如需大规模商业使用,则需要授权许可。不过这对国内厂商来说都不是问题。国内的文生图应用又得忙活一阵子了。

相关推荐
这是一个懒人1 天前
Stable Diffusion WebUI 插件大全:功能详解与下载地址
stable diffusion
浪淘沙jkp1 天前
AI大模型学习十八、利用Dify+deepseekR1 +本地部署Stable Diffusion搭建 AI 图片生成应用
人工智能·stable diffusion·agent·dify·ollama·deepseek
Icoolkj2 天前
深入了解 Stable Diffusion:AI 图像生成的奥秘
人工智能·stable diffusion
这是一个懒人3 天前
mac 快速安装stable diffusion webui
macos·stable diffusion
璇转的鱼3 天前
Stable Diffusion进阶之Controlnet插件使用
人工智能·ai作画·stable diffusion·aigc·ai绘画
AloneCat20124 天前
stable Diffusion模型结构
stable diffusion
西西弗Sisyphus4 天前
Stable Diffusion XL 文生图
stable diffusion
霍志杰5 天前
stable-diffusion windows本地部署
windows·stable diffusion
昨日之日20065 天前
ACE-Step - 20秒生成4分钟完整歌曲,音乐界的Stable Diffusion,支持50系显卡 本地一键整合包下载
计算机视觉·stable diffusion·音视频
白熊1886 天前
【图像大模型】Stable Diffusion Web UI:深度解析与实战指南
ui·stable diffusion