Stable Diffusion教程——使用TensorRT GPU加速提升Stable Diffusion出图速度

概述

Diffusion 模型在生成图像时最大的瓶颈是速度过慢的问题。为了解决这个问题，Stable Diffusion 采用了多种方式来加速图像生成，使得实时图像生成成为可能。最核心的加速是Stable Diffusion 使用了编码器将图像从原始的 3512 512 大小转换为更小的 46464 大小，从而极大地降低了计算量。它还利用了潜在表示空间（latent space）上的 Diffusion 过程，进一步降低了计算复杂度，同时也能保证较好的图像生成效果。在消费级GPU 上（8G显存），Stable Diffusion 要生成一张描述复杂图像大概需要 4 秒时间。

然而，对于许多面向消费者的应用来说，每张图像生成需要 4 秒的耗时仍然过长。这时候，TensorRT 就发挥了重要作用。TensorRT 是英伟达（NVIDIA）推出的高性能深度学习推理（inference）库，旨在优化和加速深度学习模型的推理过程。它能够将训练好的深度学习模型优化并部署到 NVIDIA GPU 上，实现实时推理任务的高效执行。TensorRT 的设计目标是提高推理性能、减少延迟和资源消耗，并支持在边缘设备上运行。

TensorRT 提供了许多优化技术，包括网络层融合（layer fusion）、内存优化、精度降级（precision calibration）、量化（quantization）和深度学习模型的裁剪（network pruning）。通过这些技术，TensorRT 可以最大限度地利用 GPU 的并行计算能力，实现深度学习模型的高效执行。

2023年10月18日 Nvidia终于推出了官方的TensorRT插件Stable-Diffusion-WebUI-TensorRT，该插件可以直接在 webui 的 extension 中安装即可，默认支持cuda11.x。

环境配置要求

要使用Stable-Diffusion-WebUI-TensorRT插件加速，有几个重要的前提条件，GPU必须是NVIDIA的（俗称N卡），GPU的显存必须在8G以上，包含8G，GPU驱动版本大于等于537.58,如果电脑没有别的深度学习模型要训练，建议驱动更新到最新的版本。物理内存大于等于16G。
支持Stable-Diffusion1.5,2.1，SDXL，SDXL Turbo 和 LCM。对于 SDXL 和 SDXL Turbo，官方推荐使用具有12GB 或更多 VRAM 的 GPU，以获得最佳性能。