stable diffusion 量化学习笔记

谢白羽2025-01-12 23:54

文章目录

- 一、一些tensorRT背景及使用介绍
- - 1）深度学习介绍
  - 2）TensorRT优化策略介绍
  - 3）TensorRT基础使用流程
  - [4）dynamic shape 模式](#4）dynamic shape 模式)
  - 5）TensorRT模型转换
- 二、实操
- - 1）编译tensorRT开源代码运行SampleMNIST

一、一些tensorRT背景及使用介绍

1）深度学习介绍

简单学习介绍量化背景

补充

1)tensorFlow python版本其实是调用的TensorFlow C的接口
2)libtorch其实是pytorch的C++版本
3)cublas是实现矩阵相乘的功能
4)cudnn主要实现dnn上的一些算子功能，例如卷积等
5)不同NVIDIA显卡架构间不兼容，同代显卡基本是同架构

2）TensorRT优化策略介绍

优化策略

1、低精度优化：int8 int16
2、Kernel自动调优
例如：cublas gemm多种实现：①不用shared memory ；②小矩阵相乘；③使用额外显存的策略
3、算子融合：例如：
relu+bias+1x1 conv =1x1 CBR
4、多流运行
5、显存优化

3）TensorRT基础使用流程

代码使用流程

4）dynamic shape 模式

背景
①TensorRT 6.0之后 explicit(显式)batch支持动态batchsize
②CV的图片基本都是固定大小，而NLP和speech语音很多都是不固定大小的
思路
1）build engine阶段设置:
①用createNetworkV2设置显示batchsize
②设置最大batchsize
③设置优化profile选项，选择最大、最常用、最小的数据维度(类似，15s\20s\30s的语音)

2）infer推理阶段
①每次推理设置输出的数据维度
②检查输入的数据维度是否符合需求
③开启推理

5）TensorRT模型转换

①onnx：一键解析pytorch转为onnx，不用像API那样一层一层构建onnx

②torch2trt：pytorch直接转为trt

③TensorFlow：谷歌出品，不用pytorch，tf直接转为trt(tf2tensorrt)

④Tencent Forward：支持pytorch\onnx\tf直接转为trt，接口简单

二、实操

1）编译tensorRT开源代码运行SampleMNIST

上一篇：SQL概述

下一篇：vue3Class 与 Style 绑定

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……09微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 102026 年 AI 大模型 & AI 编程工具实战全总结