onnx转换TensorRT的步骤

A. 解析onnx

已有的trt不适配,需要将onnx转为trt

  1. parse onnx
  2. serialize trt
  3. 保存trt文件

注意:如果不使用Int8模式,onnx的parser代码几乎通用

概览

构建阶段

  1. 建立logger(日志)
  2. 建立builder(网络元数据)
  3. 创建network(计算图)(API独需)
  4. 生成序列化的网络(网络的trt内部表示)

运行阶段

  1. 建立engine(可执行代码)
  2. 创建context(gpu进程)
  3. buffer准备(host+device)
  4. 拷贝host to device
  5. 执行推理execute
  6. 拷贝device to host
  7. 善后

A.1 构建阶段

1. 创建logger

记录器

getTRTLogger();

2. 创建builder

模型搭建的入口,网络的trt内部表示和引擎都是builder的成员方法生成的

builder.create_optimization_profile():创建用于dynamic shape输入的配置器

createInferBuilder()

builder.create_network():创建tensorrt网络对象

createNetworkV2()

在builderconfig下面进行细节设置


另外builder需要创建optimazation profile

在给定输入张量的最小最常见最大尺寸后,将设置的profile传给config

复制代码
auto profile = builder->createOptimizationProfile();
profile->setDimensions();
config->addOptimizationProfile(profile);

3. 设置builder config

进行设置网络属性

config=builder.create_builder_config()

复制代码
auto config = std::unique_ptr<nvinfer1::IBuilderConfig, samplesCommon::InferDeleter>(builder->createBuilderConfig());
  1. 指定构建期可用显存

  2. 设置标志位开关

  3. 指定校正器

  4. 添加用于dynamic shape输入的配置器

    config->addOptimizationProfile(profile);//添加用于dynamic shape输入的配置器
    config->setFlag();

4. 搭建network

创建network(计算图)是API独需的因为其他两种方法使用parser从onnx导入,不用一层层添加

network=builder.create_network()

在onnx-parser中一旦模型parser解析完成,network就自动填好了,成为了serialized network

onnx-parser解析

复制代码
createParser(*network, sample::gLogger.getTRTLogger();
​
parser->parseFromFile(modelFile.c_str(), static_cast<int>(sample::gLogger.getReportableSeverity()));

A.2 运行阶段 runtime

5. 生成TRT内部表示-serialized network

build_serialized_network(network,config)

6. 生成engine

推理引擎,可执行的代码段

生成engine:

复制代码
m_engine = std::unique_ptr<nvinfer1::ICudaEngine, samplesCommon::InferDeleter>(builder->buildEngineWithConfig(*network, *config), samplesCommon::InferDeleter());

7. 创建context

context即GPU进程

创建context:

python:engine.create_execution_context()

复制代码
 m_context = std::unique_ptr<nvinfer1::IExecutionContext, samplesCommon::InferDeleter>(m_engine->createExecutionContext(), samplesCommon::InferDeleter());

绑定输入输出

仅dynamic shape需要

8. 准备buffer

  1. 内存和显存的分别申请
  2. 拷贝
  3. 释放

python:cudart.cudaMalloc(inputHost.nbytes)[1]

课程第四部分会对buffer部分的优化做介绍

9. 执行计算-execute

拷贝到cuda buffer上执行再拷贝回host,这一步一般是B.解析trt中做,但是读取onnx后也可以做

10. 序列化引擎

engine->serialize()

11. 导出trt

特殊情况

遇到tensorrt不支持的onnx模型节点

  1. 修改源模型
  2. 修改onnx计算图,onnx-surgeon
  3. tensorrt中实现plugin
  4. 修改parser:修改源码,重新编译trt,因为tensorrt部分开源

B. 解析trt

已有trt,直接导入然后使用

parse TRT后得到engine和context

1. 创建logger

getTRTLogger()

2. 创建cudaruntime

createInferRuntime()

3. 解析/反序列化trt文件,生成引擎

runtime->deserializeCudaEngine()

4. 创建context

engine->createExecutionContext()

5. 使用

相关推荐
极客智造2 分钟前
C++ 类模板完全深度指南:泛型编程、特化、分离编译与工程实践
c++
Devil枫4 分钟前
【腾讯位置服务开发者征文大赛】AI 赋能小程序地图开发:腾讯地图 Miniprogram Skill 实战记录
人工智能·小程序
blackorbird6 分钟前
AI工作流自动化平台n8n正被大规模网络武器化
运维·网络·人工智能·自动化
阿杰学AI6 分钟前
AI核心知识126—大语言模型之 CrewAI 和 AutoGen(简洁且通俗易懂版)
人工智能·语言模型·自然语言处理·agent·多智能体·智能体·多智能体协作框架
沐知全栈开发6 分钟前
Java Number & Math 类详解
开发语言
浮尘笔记7 分钟前
Java Snowy 框架生产环境安全部署全流程(服务器篇)
java·运维·服务器·开发语言·后端
企业架构师老王7 分钟前
2026年国内AI Agent选型指南:企业数字化转型中的非侵入式架构方案深度评测
人工智能·ai·架构
黎阳之光8 分钟前
黎阳之光受邀出席上海口岸联合会2026智慧口岸研讨班 无感通关方案获盛赞
大数据·人工智能·算法·安全·数字孪生
hsg778 分钟前
简述:地理深度学习全域训练PyTorch2.7+TorchGeo等基线
人工智能·深度学习
Rsun0455110 分钟前
6、Java 适配器模式从入门到实战
java·开发语言·适配器模式