stable diffusion 量化学习笔记

文章目录

一、一些tensorRT背景及使用介绍

1)深度学习介绍

  • 简单学习介绍量化背景

    补充

    1)tensorFlow python版本其实是调用的TensorFlow C的接口
    2)libtorch其实是pytorch的C++版本
    3)cublas是实现矩阵相乘的功能
    4)cudnn主要实现dnn上的一些算子功能,例如卷积等
    5)不同NVIDIA显卡架构间不兼容,同代显卡基本是同架构

2)TensorRT优化策略介绍

  • 优化策略

    1、低精度优化 :int8 int16
    2、Kernel自动调优
    例如:cublas gemm多种实现:①不用shared memory ;②小矩阵相乘;③使用额外显存的策略
    3、算子融合:例如:
    relu+bias+1x1 conv =1x1 CBR
    4、多流运行
    5、显存优化

3)TensorRT基础使用流程

  • 代码使用流程

4)dynamic shape 模式

  • 背景
    ①TensorRT 6.0之后 explicit(显式)batch支持动态batchsize
    ②CV的图片基本都是固定大小,而NLP和speech语音很多都是不固定大小的
  • 思路
    1)build engine阶段设置:
    ①用createNetworkV2设置显示batchsize
    ②设置最大batchsize
    ③设置优化profile选项,选择最大、最常用、最小的数据维度(类似,15s\20s\30s的语音)

    2)infer推理阶段
    ①每次推理设置输出的数据维度
    ②检查输入的数据维度是否符合需求
    ③开启推理

5)TensorRT模型转换

①onnx:一键解析pytorch转为onnx,不用像API那样一层一层构建onnx

②torch2trt:pytorch直接转为trt

③TensorFlow:谷歌出品,不用pytorch,tf直接转为trt(tf2tensorrt)

④Tencent Forward:支持pytorch\onnx\tf直接转为trt,接口简单

二、实操

1)编译tensorRT开源代码运行SampleMNIST

相关推荐
做cv的小昊15 分钟前
大语言模型系统:【CMU 11-868】课程学习笔记06——Transformer学习(Transformer)
笔记·学习·语言模型
崧小果1 小时前
信道均衡——LMMSE算法
学习
知识分享小能手2 小时前
PostgreSQL 入门学习教程,从入门到精通,PostgreSQL 16 内部结构深度解析 —语法、实现与实战案例(20)
数据库·学习·postgresql
花姐夫Jun3 小时前
WebGL学习-夹角的归一化
学习·webgl
Vae_Mars3 小时前
华睿MVP:C#脚本的应用一
笔记·c#
_muffinman3 小时前
Java学习笔记-第2章 运算和语句
java·笔记·学习
Be for thing3 小时前
Android 音频硬件(Codec / 喇叭 / 麦克风)原理 + 功耗与问题定位实战(手机 / 手表通用)
android·学习·智能手机·音视频
六元七角八分3 小时前
学习笔记一《JavaScript基础语法》
javascript·笔记·学习
Be for thing3 小时前
Android 存储硬件(RAM/UFS/eMMC)底层原理 + 性能 / 功耗测试实战
android·学习·智能硬件
码农的小菜园3 小时前
Android架构学习笔记
android·学习·架构