onnx转换TensorRT的步骤

A. 解析onnx

已有的trt不适配,需要将onnx转为trt

  1. parse onnx
  2. serialize trt
  3. 保存trt文件

注意:如果不使用Int8模式,onnx的parser代码几乎通用

概览

构建阶段

  1. 建立logger(日志)
  2. 建立builder(网络元数据)
  3. 创建network(计算图)(API独需)
  4. 生成序列化的网络(网络的trt内部表示)

运行阶段

  1. 建立engine(可执行代码)
  2. 创建context(gpu进程)
  3. buffer准备(host+device)
  4. 拷贝host to device
  5. 执行推理execute
  6. 拷贝device to host
  7. 善后

A.1 构建阶段

1. 创建logger

记录器

getTRTLogger();

2. 创建builder

模型搭建的入口,网络的trt内部表示和引擎都是builder的成员方法生成的

builder.create_optimization_profile():创建用于dynamic shape输入的配置器

createInferBuilder()

builder.create_network():创建tensorrt网络对象

createNetworkV2()

在builderconfig下面进行细节设置


另外builder需要创建optimazation profile

在给定输入张量的最小最常见最大尺寸后,将设置的profile传给config

复制代码
auto profile = builder->createOptimizationProfile();
profile->setDimensions();
config->addOptimizationProfile(profile);

3. 设置builder config

进行设置网络属性

config=builder.create_builder_config()

复制代码
auto config = std::unique_ptr<nvinfer1::IBuilderConfig, samplesCommon::InferDeleter>(builder->createBuilderConfig());
  1. 指定构建期可用显存

  2. 设置标志位开关

  3. 指定校正器

  4. 添加用于dynamic shape输入的配置器

    config->addOptimizationProfile(profile);//添加用于dynamic shape输入的配置器
    config->setFlag();

4. 搭建network

创建network(计算图)是API独需的因为其他两种方法使用parser从onnx导入,不用一层层添加

network=builder.create_network()

在onnx-parser中一旦模型parser解析完成,network就自动填好了,成为了serialized network

onnx-parser解析

复制代码
createParser(*network, sample::gLogger.getTRTLogger();
​
parser->parseFromFile(modelFile.c_str(), static_cast<int>(sample::gLogger.getReportableSeverity()));

A.2 运行阶段 runtime

5. 生成TRT内部表示-serialized network

build_serialized_network(network,config)

6. 生成engine

推理引擎,可执行的代码段

生成engine:

复制代码
m_engine = std::unique_ptr<nvinfer1::ICudaEngine, samplesCommon::InferDeleter>(builder->buildEngineWithConfig(*network, *config), samplesCommon::InferDeleter());

7. 创建context

context即GPU进程

创建context:

python:engine.create_execution_context()

复制代码
 m_context = std::unique_ptr<nvinfer1::IExecutionContext, samplesCommon::InferDeleter>(m_engine->createExecutionContext(), samplesCommon::InferDeleter());

绑定输入输出

仅dynamic shape需要

8. 准备buffer

  1. 内存和显存的分别申请
  2. 拷贝
  3. 释放

python:cudart.cudaMalloc(inputHost.nbytes)[1]

课程第四部分会对buffer部分的优化做介绍

9. 执行计算-execute

拷贝到cuda buffer上执行再拷贝回host,这一步一般是B.解析trt中做,但是读取onnx后也可以做

10. 序列化引擎

engine->serialize()

11. 导出trt

特殊情况

遇到tensorrt不支持的onnx模型节点

  1. 修改源模型
  2. 修改onnx计算图,onnx-surgeon
  3. tensorrt中实现plugin
  4. 修改parser:修改源码,重新编译trt,因为tensorrt部分开源

B. 解析trt

已有trt,直接导入然后使用

parse TRT后得到engine和context

1. 创建logger

getTRTLogger()

2. 创建cudaruntime

createInferRuntime()

3. 解析/反序列化trt文件,生成引擎

runtime->deserializeCudaEngine()

4. 创建context

engine->createExecutionContext()

5. 使用

相关推荐
数智顾问21 分钟前
【73页PPT】美的简单高效的管理逻辑(附下载方式)
大数据·人工智能·产品运营
love530love23 分钟前
【保姆级教程】阿里 Wan2.1-T2V-14B 模型本地部署全流程:从环境配置到视频生成(附避坑指南)
人工智能·windows·python·开源·大模型·github·音视频
木头左25 分钟前
结合机器学习的Backtrader跨市场交易策略研究
人工智能·机器学习·kotlin
Coovally AI模型快速验证31 分钟前
3D目标跟踪重磅突破!TrackAny3D实现「类别无关」统一建模,多项SOTA达成!
人工智能·yolo·机器学习·3d·目标跟踪·无人机·cocos2d
爬虫程序猿33 分钟前
利用 Java 爬虫获取淘宝商品 SKU 详细信息实战指南
java·开发语言·爬虫
研梦非凡36 分钟前
CVPR 2025|基于粗略边界框监督的3D实例分割
人工智能·计算机网络·计算机视觉·3d
F2E_Zhangmo37 分钟前
基于cornerstone3D的dicom影像浏览器 第五章 在Displayer四个角落显示信息
开发语言·前端·javascript
MiaoChuAI41 分钟前
秒出PPT vs 豆包AI PPT:实测哪款更好用?
人工智能·powerpoint