借助 NVIDIA TensorRT,在 Stable Diffusion Web UI 中更快地生成图像

这篇文章最初发表在 NVIDIA 技术博客上。

Stable Diffusion 是一款开源软件,生成式人工智能 基于图像的模型,使用户能够生成包含简单文本描述的图像。它在开发者中越来越受欢迎,为热门应用程序提供支持,例如 WomboLensa

最终用户通常通过将模型与用户界面和一组工具打包在一起的发行版访问模型。最流行的发行版是 Automatic 1111 Stable Diffusion Web UI。本文介绍了如何利用 NVIDIA TensorRT 可以将模型的性能提高一倍。它采用了一个使用 Automatic 1111 Stable Diffusion Web UI 的示例。

高效的生成式 AI 需要 GPU

Stable Diffusion 是一种深度学习模型,它使用扩散过程根据输入的文本和图像生成图像。虽然它可以成为增强创作者工作流程的有用工具,但该模型的计算量很大。在 CPU 等非专用硬件上,生成单批四张图像需要几分钟时间,这打破了工作流程,并可能成为许多开发者的障碍。

如果没有专用硬件,AI 功能会很慢,因为 CPU 本身并不是针对神经网络所需的高度并行操作而设计,而是针对通用任务进行优化。稳定扩散说明了为什么需要 GPU 来高效运行 AI.

NVIDIA TensorRT 可加速性能

GeForce RTX GPUs 擅长运行生成式 AI 模型所需的并行工作。它们还配备了名为 Tensor Cores 的功能,用于加速 AI 用例的矩阵运算。实现这些优化的最佳方式是使用 NVIDIA TensorRT SDK,这是一种高性能深度学习推理优化器。

TensorRT 提供层融合、精度校准、内核自动调整和其他功能,可显著提高深度学习模型的效率和速度。这使得它成为实时应用程序和 Stable Diffusion 等资源密集型任务不可或缺的一部分。

TensorRT 可大幅提升性能。与之前使用的加速方法(PyTorch xFormers)相比,在 Stable Diffusion Web UI 图像生成中,每分钟图像生成次数翻了一番。

图 1. NVIDIA TensorRT 加速使每分钟的图像生成次数翻倍

图像生成:Stable Diffusion 1.5,512 x 512,批量大小 1,Automatic 1111 (适用于 NVIDIA )和 Mochi (适用于 Apple)的 Stable Diffusion Web UI

硬件:配备 Intel i9 12900K 的 GeForce RTX 4090;配备 76 个核心的 Apple M2 Ultra

在稳定扩散管道中实施 TensorRT

NVIDIA 已发布了 TensorRT 稳定扩散管道的演示,为开发者提供了一个参考实现,说明如何准备扩散模型并使用 TensorRT 加速这些模型。如果您有兴趣增强扩散管道并为您的应用带来快速推理,这是您的起点。

在此基础上,TensorRT 工作流应用于 Stable Diffusion 开发者常用的项目。在 Stable Diffusion Web UI 中实施 TensorRT 进一步普及了生成式 AI,并提供了广泛而轻松的访问。

图 2.Stable Diffusion Web UI 中生成的图像

此旅程始于 Windows 版 TensorRT Python 软件包的推出,该程序包大大简化了安装过程。即使是那些技术知识很少的人也可以轻松安装和开始使用 TensorRT.

安装后,它提供了直观的用户界面,可触发 TensorRT 引擎所需的提前编译。缓存机制大大缩短了编译时间。这些简化使用户能够专注于核心任务。集成非常灵活:动态形状使用户能够渲染不同的分辨率,并将对性能的影响降至最低。此实现为开发者提供了一个有用的工具。利用此插件增强您自己的 Stable Diffusion 工作流。

开始使用 TensorRT

要下载 Stable Diffusion Web UI TensorRT 扩展程序,请访问 NVIDIA/Stable-Diffusion-WebUI-TensorRT GitHub。查看 NVIDIA/TensorRT 演示 Stable Diffusion Pipeline 的加速。想要了解更多关于 Automatic 1111 TensorRT 扩展程序的详细信息,请参阅 Stable Diffusion Web UI 的 TensorRT 扩展

如果您需要更详细的指导,了解如何将 TensorRT 集成到您的应用中,请参阅 如何开始使用 NVIDIA AI 为您的应用程序加速。了解如何配置您的工作流程,确定哪些优化方面至关重要,以及哪些细微更改可能产生重大影响。选择适合您的 AI 工作流的机器学习框架,并探索用于视频、图形设计、摄影和音频的 SDK。

阅读原文

相关推荐
安全二次方security²5 天前
CUDA C++编程指南(7.19&20)——C++语言扩展之Warp投票函数和Warp匹配函数
c++·人工智能·nvidia·cuda·投票函数·匹配函数·vote
安全二次方security²5 天前
CUDA C++编程指南(7.15&16)——C++语言扩展之内存空间谓词和转化函数
c++·人工智能·nvidia·cuda·内存空间谓词函数·内存空间转化函数·address space
安全二次方security²6 天前
CUDA C++编程指南(7.5&6)——C++语言扩展之内存栅栏函数和同步函数
c++·人工智能·nvidia·cuda·内存栅栏函数·同步函数·syncthreads
安全二次方security²7 天前
CUDA C++编程指南(7.2)——C++语言扩展之变量内存空间指定符
c++·人工智能·nvidia·cuda·内存空间指定符·__shared__·__device__
安全二次方security²7 天前
CUDA C++编程指南(7.1)——C++语言扩展之函数执行空间指定符
c++·人工智能·nvidia·cuda·cuda编程·global·函数执行空间指定符
云雾J视界8 天前
AI服务器供电革命:为何交错并联Buck成为算力时代的必然选择
服务器·人工智能·nvidia·算力·buck·dgx·交错并联
4032407311 天前
【2026最新】Jetson全系列安装支持CUDA加速的OpenCV 4.10保姆级教程(适配Jetpack 6/5及Orin/Xavier/Nano等)
linux·opencv·计算机视觉·nvidia·cuda·jetson
REDcker18 天前
Nvidia英伟达显卡型号发布史与架构演进详解
架构·gpu·显卡·nvidia·cuda·英伟达·演进
scott19851221 天前
NVIDIA GPU内部结构:高性能矩阵乘法内核剖析
线性代数·矩阵·gpu·nvidia·cuda
clorisqqq22 天前
黄仁勋 CES 2026 演讲笔记(part2 精华)
nvidia·黄仁勋·ces2026