AI 编译器系列(六)《Stable Diffusion 在 InfiniTensor 推理框架中的适配与工程实践》

目录

[Stable Diffusion 介绍](#Stable Diffusion 介绍)

[Stable Diffusion 概述](#Stable Diffusion 概述)

扩散模型概念

[Stable Diffusion 架构](#Stable Diffusion 架构)

[1. 模块划分:](#1. 模块划分:)

[2. U-NET结构:](#2. U-NET结构:)

[3. DIT结构:](#3. DIT结构:)

工作流

[1. 文生图:](#1. 文生图:)

[2. 图生图:](#2. 图生图:)

[3. 图像重绘:](#3. 图像重绘:)

[4. 可控生成](#4. 可控生成)

[Stable Diffusion 在 InfiniTensor 推理框架中的适配](#Stable Diffusion 在 InfiniTensor 推理框架中的适配)

推理前准备

[1. 环境搭建](#1. 环境搭建)

[2. 模型下载](#2. 模型下载)

[3. 模型导出为 ONNX 文件](#3. 模型导出为 ONNX 文件)

[4. 模型预处理](#4. 模型预处理)

推理过程

结果展示

总结


本文介绍 Stable Diffusion 的基本概念、工作原理及其在 InfiniTensor 推理框架中的适配。

Stable Diffusion 介绍

Stable Diffusion 概述

  • 定义: 基于扩散模型的生成式人工智能技术,主要用于文本生成图像,支持图像生成图像、局部重绘等多种任务。

  • 特点: 通过潜在空间逐步去噪,将随机噪声还原为高质量图像,降低计算成本,支持在普通消费级 GPU 上运行。

  • 应用领域: 艺术创作、游戏与影视、广告设计、科研探索等。

扩散模型概念

  • 正向扩散: 从有序到无序的固定加噪过程,由预定义的噪声调度控制。

  • 反向扩散: 从无序到有序的去噪过程,模型学习如何逐步去除噪声。

  • DDPM论文: 介绍扩散模型的鼻祖,提及正向和反向扩散的步骤数。

Stable Diffusion 架构

1. 模块划分:

  • 文本语义编码: 将自然语言描述转化为数值表示,建立文本与图像的语义对齐。

  • 迭代去噪生成: 在潜在空间中逐步处理扩散信息,通过 U-NET+Scheduler 结构实现。

  • 空间重建解码: 使用 VAE Decoder 将潜空间运算结果解码成实际图片。

2. U-NET结构:

3. DIT结构:

DiT 采用纯 Transformer 结构作为去噪网络,与 Stable Diffusion 中常见的 U-Net 架构不同,代表了扩散模型在结构设计上的另一条技术路线。

工作流

1. 文生图:

2. 图生图:

  • • 图像输入:通过 VAE Encoder 将输入图像转化为潜变量。

  • • 噪声注入:在特定时间步加入高斯噪声。

  • • 迭代去噪:复用文生图的去噪过程,结合文本条件预测噪声。

  • • 图像生成:通过 VAE Decoder 生成新图像。

3. 图像重绘:

4. 可控生成

  • • 控制图提取:从输入图像中提取边缘检测图、人体姿态图等控制图。

  • • 条件注入:通过零卷积将控制图信息注入到 U-NET 结构中,实现语义和结构的双重控制。

Stable Diffusion 在 InfiniTensor 推理框架中的适配

推理前准备

1. 环境搭建
2. 模型下载
3. 模型导出为 ONNX 文件
4. 模型预处理

推理过程

  • 1. 输入准备: 创建批处理输入字典,指定prompt、batchsize、steps、guidance scales 等参数。
  • 2. 初始化常量参数: 从 diffuser 库中获取潜在空间大小、是否做 CFG 操作、潜在空间通道维度等参数。

  • 3. 模型初始化: 根据配置文件初始化文本编码器、U-NET/DIT 模块、tokenizer、scheduler等。

  • 4. 推理执行:

  • • 文本预处理:调用文本编码器(在部分模型配置下可能包含多个编码器)提取文本特征,并进行必要的特征对齐。

  • • 时间步生成:根据输入步骤数生成时间序列。

  • • 潜在变量初始化:随机生成潜在空间变量。

  • • 迭代去噪:根据时间步和文本嵌入,逐步去除噪声,更新潜在变量。

  • • 图像生成:通过 VAE Decoder 生成最终图像,进行后处理(如颜色空间转化和归一化逆变换)。

结果展示

总结

本文详细讲述了 Stable Diffusion 的基本概念、工作原理及其在 InfiniTensor 推理框架中的适配过程。通过这节课让大家理解 Stable Diffusion 这一类的模型的整个工作流。

相关推荐
庞轩px1 小时前
2小时完成大模型推理网关:一次AI Coding实战记录
人工智能·大模型·笔试·ai编程·ai coding
佩奇大王1 小时前
P159 摆动序列
java·开发语言·算法
weixin_537590451 小时前
《C程序设计语言》练习答案(练习1-7)
linux·c语言·算法
Ellenjing1 小时前
架构演进与性能压榨:在金融 RAG 中引入条款森林 (FoC)
人工智能·aigc·知识图谱
薛定猫AI2 小时前
【深度解析】从玩具项目到全栈生产:Google AI Studio + Antigravity 的新范式
人工智能
!停2 小时前
C++基础入门(缺省参数,函数重载,引用)
开发语言·c++·算法
我不是秋秋2 小时前
软件开发项目各角色关系解析:产品/前后端/测试如何高效协作?
java·算法·面试·职场和发展·哈希算法
Tisfy2 小时前
LeetCode 1886.判断矩阵经轮转后是否一致:模拟
算法·leetcode·矩阵·题解·模拟
dapeng28704 小时前
分布式系统容错设计
开发语言·c++·算法