Stable Diffusion在各种显卡上的加速方式测试，最高可以提速211.2%

Stable Diffusion是一种基于扩散模型的图像生成技术，能够从文本生成高质量的图像，适用于CG，插图和高分辨率壁纸等领域。

但是它计算过程复杂，使得它的生成速度较慢。所以研究人员就创造了各种提高其速度的方式，比如Xformers、Aitemplate、TensorRT和onflow。在本文中我们将对这些加速方法进行了一系列对比测试。

在本文中，我们将介绍这些加速方法的原理和性能测试结果，并提供对不同显卡的成本效益总结，我们的目标时在并在2秒内生成高质量的图像。

通过我们的试验与RTX 3090上的Xformers相比，OneFlow实现了211.2%的加速，在RTX 4090上实现了205.6%的加速。所以一个高配的GPU还是很必要的。

加速方案原理及特性

以下表格整理了目前能够看到的加速方案

本文使用Xformers, Aitemplate, TensorRT和onflow进行测试。因为NvFuser在原理上与Xformers相似，都使用了FlashAttention技术。DeepSpeed和colossalAI主要是为训练加速而设计的，而OpenAI Triton则是一个模型部署引擎，适用于批大小的加速，但不适用于优化延迟场景，所以这些都包含在本文中。

我们使用VoltaML来评估Aitemplate的加速效果，使用Stable Diffusion web来评估Xformers的加速，使用官方TensorRT示例来评估TensorRT的性能，并将OneFlow集成到Diffusion中来测试其加速度。

加速方案测试

接下来，我们将介绍相关的测试配置

1、测试设置

我们的性能度量是每秒迭代数(its/s)。图像设置为512*512，步骤100

提示词为:A beautiful girl, best quality, ultra-detailed, extremely detailed CG unity 8k wallpaper, best illustration, an extremely delicate and beautiful, floating, high resolution.

Negative提示: Low resolution, bad anatomy, bad hands, text error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, bad feet, fused body.

Sampler: Euler a

模型:Stable Diffusion 1.5

2、测试结果

在各种gpu上的性能测试结果，如下图所示（上图第一行为Xformers，第三行为Aitemplate ，第四行为OneFlow ）: