一眼索源Stable Diffusion的来龙去脉和变革

Stable Diffusion是一种基于扩散技术的深度学习文本转图像模型,于 2022 年发布。

生成式人工智能技术是Stability AI的首要产品,被认为是正在进行的人工智能热潮的一部分。

它主要用于根据文本描述生成详细图像,但也可应用于其他任务,如修复、去除

图像以及根据文本提示生成图像到图像的转换。

它的开发由慕尼黑大学CompVis 小组和Runway的研究人员参与,Stability 提供计算支持,

并使用了非营利组织提供的训练数据。

稳定扩散是一种潜在扩散模型,是一种深度生成人工神经网络。

其代码和模型权重已公开发布,并且可以在大多数配备至少 4 GB VRAM的

普通GPU的消费级硬件上运行。

这与之前只能通过云服务访问的专有文本转图像模型(如DALL-E和Midjourney)不同。

Stable Diffusion 起源于一个名为Latent Diffusion的项目,由德国

慕尼黑路德维希马克西米利安大学和海德堡大学的研究人员开发。最初的 5 位作者中

有 4 位(Robin Rombach、Andreas Blattmann、Patrick Esser 和 Dominik Lorenz)

后来加入了 Stability AI,并发布了 Stable Diffusion 的后续版本。

该模型的技术许可证由慕尼黑路德维希马克西米利安大学的 CompVis 团队发布。

开发由Runway的 Patrick Esser 和 CompVis 的 Robin Rombach 领导,

他们是先前发明了 Stable Diffusion 使用的潜在扩散模型架构的研究人员之一。

Stability AI 还将EleutherAI和LAION(一家德国非营利组织,收集了

Stable Diffusion 训练所用的数据集)列为该项目的支持者。

架构

SD3之前的稳定扩散系列模型都使用了一种扩散模型(DM),称为潜在扩散模型 (LDM),

由慕尼黑大学CompVis(计算机视觉与学习)小组开发。扩散模型于 2015 年推出,

其训练目标是消除训练图像上连续应用的高斯噪声,可将其视为一系列去噪自动编码器。

稳定扩散由 3部分组成:

变分自动编码器(VAE)、U-Net和可选的文本编码器。

VAE 编码器将图像从像素空间压缩到更小维度的潜在空间,从而捕捉图像更基本的语义含义。

在前向扩散过程中,高斯噪声会迭代地应用于压缩的潜在表示。

U-Net 模块由ResNet主干组成,它对前向扩散的输出进行去噪,以获得潜在表征。

最后,VAE 解码器通过将表征转换回像素空间来生成最终图像。

去噪步骤可以灵活地根据文本字符串、图像或其他模态进行调节。

编码后的调节数据通过交叉注意机制暴露给去噪 U-Nets 。

对于文本调节,使用固定的、预训练的CLIP ViT-L/14 文本编码器将文本提示转换为嵌入空间。

研究人员指出,LDM 的优势在于训练和生成的计算效率更高。

扩散这个名字的灵感来自于热力学 扩散,2015 年,这个纯物理场与深度学习之间建立了重要的联系。

U-Net 中有 8.6亿个参数, 文本编码器中有 1.23 亿个参数,按 2022 年的标准,

Stable Diffusion 被认为是相对轻量级的。与其他扩散模型不同,它可以在消费级GPU上运行,

如果使用OpenVINO版本的 Stable Diffusion ,甚至可以仅在CPU 上运行。

3.0版本彻底改变了骨干网络。不再是 UNet,而是Rectified Flow Transformer,它使用

Transformer实现了整流方法。

SD 3.0使用的 Transformer 架构有三个"轨道",分别用于原始文本编码、转换后的文本编码和图像编码(在潜在空间中)。

转换后的文本编码和图像编码在每个 Transformer 块中混合。

该架构被命名为"多模态扩散变换器(MMDiT)",其中"多模态"表示它在其操作中混合了文本和图像编码。

这与以前版本的 DiT 不同,其中文本编码会影响图像编码,但反之则不然。

训练数据

稳定扩散模型在从 LAION-5B 中获取的图像和标题对上进行训练,LAION-5B 是一个公开可用的数据集,

源自从网络上抓取的Common Crawl数据,其中 50 亿个图像-文本对基于语言进行分类,并根据分辨率、

预测包含水印的可能性和预测的"美学"分数(例如主观视觉质量)过滤到单独的数据集中。

该数据集由德国非营利组织LAION创建,该组织获得 Stability AI 的资助。

稳定扩散模型在 LAION-5B 的三个子集上进行了训练:laion2B-en、laion-high-resolution 和 laion-aesthetics v2 5+。

第三方对模型训练数据的分析发现,在从原始使用的更广泛数据集中获取的 1200 万张图像的较小子集中,

约有 47% 的图像样本来自 100 个不同的域,其中Pinterest占该子集的 8.5%,

其次是WordPress、Blogspot、Flickr、DeviantArt和Wikimedia Commons等网站。

巴伐利亚广播公司的一项调查显示,LAION 托管在 Hugging Face 上的数据集包含大量私人和敏感数据。

训练过程

该模型最初在 laion2B-en 和 laion-high-resolution 子集上进行训练,最后几轮训练在

LAION-Aesthetics v2 5+ 上进行,LAION-Aesthetics v2 5+ 是一个包含 6 亿张带字幕图像的子集,

LAION-Aesthetics Predictor V2 预测,当被要求评价人们对这些图像的喜欢程度时,人类平均会给出至少5分(满分10分)。

LAION-Aesthetics v2 5+ 子集还排除了低分辨率图像和 LAION-5B-WatermarkDetection

识别为带有水印的概率超过 80% 的图像。

最后几轮训练还放弃了 10%的文本条件,以改进无分类器扩散指导。

该模型使用Amazon Web Services上的 256 个Nvidia A100 GPU进行训练,总共耗时 150,000 GPU 小时,

成本为 600,000 美元。[ 30 ] [ 31 ] [ 32 ]

SD3的训练成本约为 1000 万美元。

相关推荐
ai_xiaogui1 天前
一键部署AI工具!用AIStarter快速安装ComfyUI与Stable Diffusion
人工智能·stable diffusion·部署ai工具·ai应用市场教程·sd快速部署·comfyui一键安装
sigmoidAndRELU2 天前
读Vista
笔记·stable diffusion·世界模型
修炼室17 天前
Stable Diffusion WebUI 本地部署完整教程
stable diffusion
NetX行者17 天前
Stable Diffusion:开启AI图像生成新纪元
人工智能·stable diffusion
这是一个懒人22 天前
SD和comfyui常用模型介绍和下载
stable diffusion·comfyui·模型下载
有点小帅得平哥哥23 天前
Stable Diffusion WebUI 本地部署指南(Windows 11 + RTX 4060 Ti)
stable diffusion
CoovallyAIHub1 个月前
突破异常数据瓶颈!AnomalyAny:一句话+一张图,零样本生成任意异常图像
计算机视觉·stable diffusion
写代码的小阿帆1 个月前
Fractal Generative Models论文阅读笔记与代码分析
论文阅读·stable diffusion·transformer
春末的南方城市1 个月前
港科大&快手提出统一上下文视频编辑 UNIC,各种视频编辑任务一网打尽,还可进行多项任务组合!
人工智能·计算机视觉·stable diffusion·aigc·transformer
多恩Stone1 个月前
【Stable Diffusion 1.5 】在 Unet 中每个 Cross Attention 块中的张量变化过程
stable diffusion