4G显存玩转AI绘画！Stable Diffusion WebUI Forge来了！

经常使用Stable Diffusion WebUI的同学可能都被显存的问题困扰过，其运行时需要巨大的显存空间，跑着跑着显存可能就爆了，不得不重新启动。不过现在这个问题解决了，因为Stable Diffusion WebUI Forge来了。

Forge的优势

相较于原版的SD WebUI（针对1024像素分辨率下的SDXL图片生成），可以获取以下性能提升：

对于8GB显存GPU，生成速度可以有大约30%至45%的提升，GPU内存峰值下降约700MB至1.3GB，最大扩散分辨率将提升约2到3倍，同时最大扩散批次大小将增加约4到6倍。
对于6GB显存GPU，生成速度预计可提升约60%至75%，GPU内存峰值会降低约800MB至1.5GB，最大扩散分辨率将提升约3倍，最大扩散批次大小将增加约4倍。
对于24GB显存的4090 GPU，生成速度预计可提升约3%至6%，GPU内存峰值将下降约1GB至1.4GB，最大扩散分辨率将提升约1.6倍，而最大扩散批次大小将增加约2倍。
另外对于SDXL，SDXL+ControlNet的速度将提升约30%至45%。

Forge后端移除了原版WebUI中与资源管理相关的所有代码，并对其进行了重构。不需要任何特殊设置，Forge即可支持在4GB显存下运行SDXL以及在2GB显存下运行SD1.5。

Forge做了什么

Stable Diffusion WebUI Forge是Stable Diffusion WebUI的优化版本，和原版WebUI的功能基本保持一致，但是大幅简化了开发流程，优化了资源管理，并加快了推理速度。为什么不直接改WebUI呢？因为WebUI有很多的历史包袱，不好直接大幅度重构，开发者之间协调起来也很麻烦。

"Forge"这个名字来源于"我的世界(Minecraft)的Forge"，这个项目的目标是成为SD WebUI的Forge。在"我的世界"中，Forge解决了模组之间的兼容性问题，确保多个模组可以在同一环境中协同工作，而不会因为互相冲突而导致游戏崩溃或其他不可预见的问题。

与此类似，WebUI Forge也带来的一项重大的革新，这就是Unet Patcher技术。借助这个工具，原本复杂的技术如自注意力引导、Kohya高清修复方案、FreeU、StyleAlign以及Hypertile等，如今通过仅仅约100行代码就能够轻松实现集成，大大简化了开发过程。

有了Unet Patcher，WebUI Forge平台也得以支持和便捷实现一系列创新功能与特性。无论是SVD、Z123、带蒙版的ControlNet系统，还是用于照片生成的照片制作工具（PhotoMaker）等，都变得触手可及。开发者再也不必费尽心思对UNet做复杂的临时性修补，同时也消除了与其他扩展相互干扰的风险，使得整个开发环境更加和谐稳定。

Forge能力介绍

Forge的能力和原版WebUI的能力差不多，界面也基本上是一样的。下边我将主要介绍下 Stable Diffusion WebUI Forge 带来的三个主要新能力。

SVD

Stable Video Diffusion是Stability AI公司研发的一款先进的图片生成视频模型，这个模型基于Stable Diffusion模型进行了拓展，在SD的基础上引入了时间维度，能够捕捉并生成动态场景，主要用于将静态图像转化为连续流畅的视频内容。

模型采用了潜在扩散模型（Latent Diffusion Model, LDM）架构，并针对视频数据集进行了优化。通过添加时间层，模型能够理解和预测视频序列中每一帧的变化，从而生成连贯的视频片段。

Stable Video Diffusion可以以每秒3至30帧的可定制帧率生成14帧或25帧长度的视频，并且在外部评估中显示出了优于某些闭源模型的性能。

在这个功能中我们可以使用其最新发布的1.1版本，还有很多参数可以自己控制调整。

Z123

Z123是Zero123的缩写，Zero123是一种能从单张2D图像生成高质量3D模型的技术，它运用了深度学习的扩散模型原理，允许模型理解并推测出输入图像中物体的3D结构和空间信息，进而生成多视角下的连续且一致的图像或直接构建3D模型。

在Stable Diffusion WebUI Forge中我们需要自己下载部署Zero123模型，这里我部署了stable_zero123.ckpt 模型。Stable Zero123是Zero123模型的一个增强版本，它进一步提升了模型性能，在质量和准确性上有所突破，尤其在处理从单张图像生成3D对象方面表现出色。

这个功能有一些参数可以设置，比如宽度、高度等，重点是海拔和角度，这就可以生成不同的视角的图片。

AnimateDiff

AnimateDiff 在WebUI中是个插件，主要用于为 Stable Diffusion 添加动态元素，使其能够生成流畅且连续的动画视频，网络上流行的"女孩的一生"就是用这个工具生成的。因其生成动画的平滑、稳定而受到广泛欢迎，被认为是Stable Diffusion生态中生成动画视频效果最为出色的一款插件。

AnimateDiff 在现有扩散模型的基础上增加了一个运动建模模块，这一模块通过学习大规模视频数据集，能够捕捉并合成合理的时间序列变化，将静止的二次元或三维图像转换为动态的动画。

这个插件也能够用在原版的WebUI中，不过开发者为Forge也维护了一个单独的版本，结合ControlNet的能力也更为强大一些，插件地址：github.com/continue-re...

如果你对使用 AnimateDiff 生成视频感兴趣，可以看我这篇文章：

使用Forge

使用镜像

我在AutoDL（www.autodl.com）上制作了一个镜像，解决了各种程序包和模型的问题，Z123、SVD、AnimateDiff这三个功能也都准备好了，可以直接使用。

租用实例时，镜像选择"社区镜像"，输入 yinghuoai 就可以找到：

镜像内置了一个简单的启动器，点击即可启动整个 WebUI Forge 程序。

启动后就可以通过 AutoDL 提供的"自定义服务"在浏览器中访问WebUI Forge了。

手动安装

和原版WebUI的安装方法差不多，首先下载代码到本地，然后执行启动脚本（Windows：webui-user.bat，Linux：webui.sh），就可以自动安装部署。

Forge另外提供了一个一键安装包，有兴趣的可以试试：

github.com/lllyasviel/...

只是使用时可能会遇到一些缺少包或者模型的问题，需要手动下载或安装。如有问题，欢迎交流沟通。

资源下载

文章中使用的SD模型、Lora模型、SD插件、示例图片等，都已经上传到我整理的 Stable Diffusion 绘画资源中；另外我整理了自己输出的关于 Stable Diffusion 的所有教程，包括基础篇、ControlNet、插件、实战、模型训练等多个方面，比较全面、体系化，特别适合新手和想要系统化学习使用Stable Diffusion WebUI的同学。最新下载地址请发消息 SD 到公/众\号 yinghuo6ai ，即可获取。

使用中遇到问题，欢迎向我交流反馈！