jetson上trtexec模型转换

一、导出onnx

将pt模型转换为onnx模型,以yolo系列为例:

bash 复制代码
 yolo export model=yolo11x.pt imgsz=640,640 batch=8 format=onnx

二、将静态模型转换为动态batch的模型

在trtexec工具的参数中,有maxShapes,minShapes,optShapes几个参数,意思是转换后的模型是动态batch的,当你的实际推理任务中,同时近来了多张图片,那么你可以不用一张一张的去推理,全部丢给模型,一次性推理完。主要目的是提高GPU的吞吐量。

但是我们导出的onnx模型一般batch维度是固定的,因此通过下面这段脚本,将模型的batch维度由一个固定的数值,变成'batch'字符串,这样trtexec在转换的过程中就可以利用maxShapes,minShapes,optShapes这三个参数区优化动态batch推理。不用固定输入1或者8张图片。

python 复制代码
import onnx

model = onnx.load('yolov5xu.onnx')

# 将输入的第一个维度(batch)改为动态
for inp in model.graph.input:
    dim = inp.type.tensor_type.shape.dim
    if len(dim) > 0:
        dim[0].dim_param = 'batch'  # 将 batch 维度改为动态

onnx.save(model, 'yolov5xu_dynamic.onnx')

如果,没有用上面的脚本转换,那么trtexec加maxShapes,minShapes,optShapes三个参数会报错。

三、转换

bash 复制代码
/usr/src/tensorrt/bin/trtexec \
  --onnx=yolov5xu.onnx \ 
  --explicitBatch \
  --minShapes=data:1x3x640x640 \ 
  --optShapes=data:8x3x640x640 \ 
  --maxShapes=data:16x3x640x640 \
  --saveEngine=yolov5xu.engine \
  --int8 \
  --calib=/path/to/calibration_images.txt \
参数 说明
--onnx yolov5xu.onnx 指定输入的 ONNX 模型文件路径
--saveEngine yolov5xu.engine 保存生成的 TensorRT 引擎文件路径
--explicitBatch 启用显式 Batch 模式 。告诉 TensorRT 网络的 batch 维度需要明确指定,而不是隐式推断。使用 --minShapes/--optShapes/--maxShapes 时此参数必须添加
--minShapes data:1x3x640x640 最小形状 :输入 data 的最小尺寸是 batch=1, channels=3, height=640, width=640
--optShapes data:8x3x640x640 最优形状 :输入 data 的最优尺寸是 batch=8, channels=3, height=640, width=640。TensorRT 会针对这个尺寸做最大程度优化
--maxShapes data:16x3x640x640 最大形状 :输入 data 的最大尺寸是 batch=16, channels=3, height=640, width=640
-optimizationLevel 3 TensorRT 整体优化级别。取值范围 0-3,3 为最高级别,会进行最激进的层融合和算子优化,能最大程度提升推理性能
--builderOptimizationLevel 3 Builder 构建优化级别 。同样取值范围 0-3,控制构建引擎时的优化强度。级别 3 会尝试更多内核组合,找到最优方案,但构建时间会显著增加
--memPoolSize workspace:1024 内存池大小限制 。限制构建引擎时 TensorRT 可以使用的最大工作内存为 1024 MiB (1GB)。这可以防止构建过程中出现 OOM(显存溢出)错误

注意,最好把模型放在jetson设备上转换

|---|---|---|
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |

相关推荐
互联网推荐官1 小时前
2026上海GEO优化服务商综合实力深度评测
大数据·人工智能·技术分享·geo·上海
Dfreedom.1 小时前
算子融合:从硬件本质到性能飞跃的深度学习优化艺术
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算
QYR_111 小时前
4.3% 年复合增速:2026全球救生衣灯市场格局与海事合规发展报告
大数据·人工智能
Tassel_YUE1 小时前
超节点技术深度篇三:大模型并行通信拆解:DP、TP、PP、EP、CP 到底在网络里发生了什么
网络·人工智能·数据中心·超节点
tedcloud1231 小时前
hello-agents部署教程:从零学习AI Agent开发
服务器·人工智能·学习·自动化·powerpoint
像一阵风。1 小时前
【技术复盘】基于 Web 接口的 ChatGPT Plus 订阅风控破局与免密全自动续费实践
人工智能·chatgpt
铭毅天下1 小时前
Easysearch 版本进化全图——从 ES 国产替代到 AI Native 搜索数据库
大数据·数据库·人工智能·elasticsearch·搜索引擎
机器学习是魔鬼2 小时前
矩池云实战: 用Gemma 4 + Open WebUI打造你的私人OpenAI
人工智能·chatgpt
嗝o゚2 小时前
昇腾CANN ops-blas 仓:GEMM 算子的高性能实现
人工智能·gemm·ascend·cann算子