onnx转换TensorRT的步骤

A. 解析onnx

已有的trt不适配,需要将onnx转为trt

  1. parse onnx
  2. serialize trt
  3. 保存trt文件

注意:如果不使用Int8模式,onnx的parser代码几乎通用

概览

构建阶段

  1. 建立logger(日志)
  2. 建立builder(网络元数据)
  3. 创建network(计算图)(API独需)
  4. 生成序列化的网络(网络的trt内部表示)

运行阶段

  1. 建立engine(可执行代码)
  2. 创建context(gpu进程)
  3. buffer准备(host+device)
  4. 拷贝host to device
  5. 执行推理execute
  6. 拷贝device to host
  7. 善后

A.1 构建阶段

1. 创建logger

记录器

getTRTLogger();

2. 创建builder

模型搭建的入口,网络的trt内部表示和引擎都是builder的成员方法生成的

builder.create_optimization_profile():创建用于dynamic shape输入的配置器

createInferBuilder()

builder.create_network():创建tensorrt网络对象

createNetworkV2()

在builderconfig下面进行细节设置


另外builder需要创建optimazation profile

在给定输入张量的最小最常见最大尺寸后,将设置的profile传给config

复制代码
auto profile = builder->createOptimizationProfile();
profile->setDimensions();
config->addOptimizationProfile(profile);

3. 设置builder config

进行设置网络属性

config=builder.create_builder_config()

复制代码
auto config = std::unique_ptr<nvinfer1::IBuilderConfig, samplesCommon::InferDeleter>(builder->createBuilderConfig());
  1. 指定构建期可用显存

  2. 设置标志位开关

  3. 指定校正器

  4. 添加用于dynamic shape输入的配置器

    config->addOptimizationProfile(profile);//添加用于dynamic shape输入的配置器
    config->setFlag();

4. 搭建network

创建network(计算图)是API独需的因为其他两种方法使用parser从onnx导入,不用一层层添加

network=builder.create_network()

在onnx-parser中一旦模型parser解析完成,network就自动填好了,成为了serialized network

onnx-parser解析

复制代码
createParser(*network, sample::gLogger.getTRTLogger();
​
parser->parseFromFile(modelFile.c_str(), static_cast<int>(sample::gLogger.getReportableSeverity()));

A.2 运行阶段 runtime

5. 生成TRT内部表示-serialized network

build_serialized_network(network,config)

6. 生成engine

推理引擎,可执行的代码段

生成engine:

复制代码
m_engine = std::unique_ptr<nvinfer1::ICudaEngine, samplesCommon::InferDeleter>(builder->buildEngineWithConfig(*network, *config), samplesCommon::InferDeleter());

7. 创建context

context即GPU进程

创建context:

python:engine.create_execution_context()

复制代码
 m_context = std::unique_ptr<nvinfer1::IExecutionContext, samplesCommon::InferDeleter>(m_engine->createExecutionContext(), samplesCommon::InferDeleter());

绑定输入输出

仅dynamic shape需要

8. 准备buffer

  1. 内存和显存的分别申请
  2. 拷贝
  3. 释放

python:cudart.cudaMalloc(inputHost.nbytes)[1]

课程第四部分会对buffer部分的优化做介绍

9. 执行计算-execute

拷贝到cuda buffer上执行再拷贝回host,这一步一般是B.解析trt中做,但是读取onnx后也可以做

10. 序列化引擎

engine->serialize()

11. 导出trt

特殊情况

遇到tensorrt不支持的onnx模型节点

  1. 修改源模型
  2. 修改onnx计算图,onnx-surgeon
  3. tensorrt中实现plugin
  4. 修改parser:修改源码,重新编译trt,因为tensorrt部分开源

B. 解析trt

已有trt,直接导入然后使用

parse TRT后得到engine和context

1. 创建logger

getTRTLogger()

2. 创建cudaruntime

createInferRuntime()

3. 解析/反序列化trt文件,生成引擎

runtime->deserializeCudaEngine()

4. 创建context

engine->createExecutionContext()

5. 使用

相关推荐
GIS小天9 分钟前
AI+预测3D新模型百十个定位预测+胆码预测+去和尾2025年7月4日第128弹
人工智能·算法·机器学习·彩票
jingling55512 分钟前
面试版-前端开发核心知识
开发语言·前端·javascript·vue.js·面试·前端框架
我是小哪吒2.020 分钟前
书籍推荐-《对抗机器学习:攻击面、防御机制与人工智能中的学习理论》
人工智能·深度学习·学习·机器学习·ai·语言模型·大模型
oioihoii23 分钟前
C++11 forward_list 从基础到精通:原理、实践与性能优化
c++·性能优化·list
慕婉030724 分钟前
深度学习前置知识全面解析:从机器学习到深度学习的进阶之路
人工智能·深度学习·机器学习
m0_6873998431 分钟前
写一个Ununtu C++ 程序,调用ffmpeg API, 来判断一个数字电影的视频文件mxf 是不是Jpeg2000?
开发语言·c++·ffmpeg
爱上语文41 分钟前
Redis基础(5):Redis的Java客户端
java·开发语言·数据库·redis·后端
A~taoker1 小时前
taoker的项目维护(ng服务器)
java·开发语言
萧曵 丶1 小时前
Rust 中的返回类型
开发语言·后端·rust
荔枝吻1 小时前
【AI总结】Git vs GitHub vs GitLab:深度解析三者联系与核心区别
人工智能·git·github