一眼索源Stable Diffusion的来龙去脉和变革

Stable Diffusion是一种基于扩散技术的深度学习文本转图像模型,于 2022 年发布。

生成式人工智能技术是Stability AI的首要产品,被认为是正在进行的人工智能热潮的一部分。

它主要用于根据文本描述生成详细图像,但也可应用于其他任务,如修复、去除

图像以及根据文本提示生成图像到图像的转换。

它的开发由慕尼黑大学CompVis 小组和Runway的研究人员参与,Stability 提供计算支持,

并使用了非营利组织提供的训练数据。

稳定扩散是一种潜在扩散模型,是一种深度生成人工神经网络。

其代码和模型权重已公开发布,并且可以在大多数配备至少 4 GB VRAM的

普通GPU的消费级硬件上运行。

这与之前只能通过云服务访问的专有文本转图像模型(如DALL-E和Midjourney)不同。

Stable Diffusion 起源于一个名为Latent Diffusion的项目,由德国

慕尼黑路德维希马克西米利安大学和海德堡大学的研究人员开发。最初的 5 位作者中

有 4 位(Robin Rombach、Andreas Blattmann、Patrick Esser 和 Dominik Lorenz)

后来加入了 Stability AI,并发布了 Stable Diffusion 的后续版本。

该模型的技术许可证由慕尼黑路德维希马克西米利安大学的 CompVis 团队发布。

开发由Runway的 Patrick Esser 和 CompVis 的 Robin Rombach 领导,

他们是先前发明了 Stable Diffusion 使用的潜在扩散模型架构的研究人员之一。

Stability AI 还将EleutherAI和LAION(一家德国非营利组织,收集了

Stable Diffusion 训练所用的数据集)列为该项目的支持者。

架构

SD3之前的稳定扩散系列模型都使用了一种扩散模型(DM),称为潜在扩散模型 (LDM),

由慕尼黑大学CompVis(计算机视觉与学习)小组开发。扩散模型于 2015 年推出,

其训练目标是消除训练图像上连续应用的高斯噪声,可将其视为一系列去噪自动编码器。

稳定扩散由 3部分组成:

变分自动编码器(VAE)、U-Net和可选的文本编码器。

VAE 编码器将图像从像素空间压缩到更小维度的潜在空间,从而捕捉图像更基本的语义含义。

在前向扩散过程中,高斯噪声会迭代地应用于压缩的潜在表示。

U-Net 模块由ResNet主干组成,它对前向扩散的输出进行去噪,以获得潜在表征。

最后,VAE 解码器通过将表征转换回像素空间来生成最终图像。

去噪步骤可以灵活地根据文本字符串、图像或其他模态进行调节。

编码后的调节数据通过交叉注意机制暴露给去噪 U-Nets 。

对于文本调节,使用固定的、预训练的CLIP ViT-L/14 文本编码器将文本提示转换为嵌入空间。

研究人员指出,LDM 的优势在于训练和生成的计算效率更高。

扩散这个名字的灵感来自于热力学 扩散,2015 年,这个纯物理场与深度学习之间建立了重要的联系。

U-Net 中有 8.6亿个参数, 文本编码器中有 1.23 亿个参数,按 2022 年的标准,

Stable Diffusion 被认为是相对轻量级的。与其他扩散模型不同,它可以在消费级GPU上运行,

如果使用OpenVINO版本的 Stable Diffusion ,甚至可以仅在CPU 上运行。

3.0版本彻底改变了骨干网络。不再是 UNet,而是Rectified Flow Transformer,它使用

Transformer实现了整流方法。

SD 3.0使用的 Transformer 架构有三个"轨道",分别用于原始文本编码、转换后的文本编码和图像编码(在潜在空间中)。

转换后的文本编码和图像编码在每个 Transformer 块中混合。

该架构被命名为"多模态扩散变换器(MMDiT)",其中"多模态"表示它在其操作中混合了文本和图像编码。

这与以前版本的 DiT 不同,其中文本编码会影响图像编码,但反之则不然。

训练数据

稳定扩散模型在从 LAION-5B 中获取的图像和标题对上进行训练,LAION-5B 是一个公开可用的数据集,

源自从网络上抓取的Common Crawl数据,其中 50 亿个图像-文本对基于语言进行分类,并根据分辨率、

预测包含水印的可能性和预测的"美学"分数(例如主观视觉质量)过滤到单独的数据集中。

该数据集由德国非营利组织LAION创建,该组织获得 Stability AI 的资助。

稳定扩散模型在 LAION-5B 的三个子集上进行了训练:laion2B-en、laion-high-resolution 和 laion-aesthetics v2 5+。

第三方对模型训练数据的分析发现,在从原始使用的更广泛数据集中获取的 1200 万张图像的较小子集中,

约有 47% 的图像样本来自 100 个不同的域,其中Pinterest占该子集的 8.5%,

其次是WordPress、Blogspot、Flickr、DeviantArt和Wikimedia Commons等网站。

巴伐利亚广播公司的一项调查显示,LAION 托管在 Hugging Face 上的数据集包含大量私人和敏感数据。

训练过程

该模型最初在 laion2B-en 和 laion-high-resolution 子集上进行训练,最后几轮训练在

LAION-Aesthetics v2 5+ 上进行,LAION-Aesthetics v2 5+ 是一个包含 6 亿张带字幕图像的子集,

LAION-Aesthetics Predictor V2 预测,当被要求评价人们对这些图像的喜欢程度时,人类平均会给出至少5分(满分10分)。

LAION-Aesthetics v2 5+ 子集还排除了低分辨率图像和 LAION-5B-WatermarkDetection

识别为带有水印的概率超过 80% 的图像。

最后几轮训练还放弃了 10%的文本条件,以改进无分类器扩散指导。

该模型使用Amazon Web Services上的 256 个Nvidia A100 GPU进行训练,总共耗时 150,000 GPU 小时,

成本为 600,000 美元。[ 30 ] [ 31 ] [ 32 ]

SD3的训练成本约为 1000 万美元。

相关推荐
迈火4 天前
Facerestore CF (Code Former):ComfyUI人脸修复的卓越解决方案
人工智能·gpt·计算机视觉·stable diffusion·aigc·语音识别·midjourney
重启编程之路5 天前
Stable Diffusion 参数记录
stable diffusion
孤狼warrior8 天前
图像生成 Stable Diffusion模型架构介绍及使用代码 附数据集批量获取
人工智能·python·深度学习·stable diffusion·cnn·transformer·stablediffusion
love530love10 天前
【避坑指南】提示词“闹鬼”?Stable Diffusion 自动注入神秘词汇 xiao yi xian 排查全记录
人工智能·windows·stable diffusion·model keyword
世界尽头与你10 天前
Stable Diffusion web UI 未授权访问漏洞
安全·网络安全·stable diffusion·渗透测试
love530love10 天前
【故障解析】Stable Diffusion WebUI 更换主题后启动报 JSONDecodeError?可能是“主题加载”惹的祸
人工智能·windows·stable diffusion·大模型·json·stablediffusion·gradio 主题
ai_xiaogui15 天前
Stable Diffusion Web UI 绘世版 v4.6.1 整合包:一键极速部署,深度解决 AI 绘画环境配置与 CUDA 依赖难题
人工智能·stable diffusion·环境零配置·高性能内核优化·全功能插件集成·极速部署体验
微学AI16 天前
金仓数据库的新格局:以多模融合开创文档数据库
人工智能·stable diffusion
我的golang之路果然有问题16 天前
开源绘画大模型简单了解
人工智能·ai作画·stable diffusion·人工智能作画
我的golang之路果然有问题16 天前
comfyUI中的动作提取分享
人工智能·stable diffusion·ai绘画·人工智能作画·comfy