jetson上trtexec模型转换

一、导出onnx

将pt模型转换为onnx模型，以yolo系列为例：

bash 复制代码

 yolo export model=yolo11x.pt imgsz=640,640 batch=8 format=onnx

二、将静态模型转换为动态batch的模型

在trtexec工具的参数中，有maxShapes，minShapes，optShapes几个参数，意思是转换后的模型是动态batch的，当你的实际推理任务中，同时近来了多张图片，那么你可以不用一张一张的去推理，全部丢给模型，一次性推理完。主要目的是提高GPU的吞吐量。

但是我们导出的onnx模型一般batch维度是固定的，因此通过下面这段脚本，将模型的batch维度由一个固定的数值，变成'batch'字符串，这样trtexec在转换的过程中就可以利用maxShapes，minShapes，optShapes这三个参数区优化动态batch推理。不用固定输入1或者8张图片。

python 复制代码

import onnx

model = onnx.load('yolov5xu.onnx')

# 将输入的第一个维度（batch）改为动态
for inp in model.graph.input:
    dim = inp.type.tensor_type.shape.dim
    if len(dim) > 0:
        dim[0].dim_param = 'batch'  # 将 batch 维度改为动态

onnx.save(model, 'yolov5xu_dynamic.onnx')

如果，没有用上面的脚本转换，那么trtexec加maxShapes，minShapes，optShapes三个参数会报错。

三、转换

bash 复制代码

/usr/src/tensorrt/bin/trtexec \
  --onnx=yolov5xu.onnx \ 
  --explicitBatch \
  --minShapes=data:1x3x640x640 \ 
  --optShapes=data:8x3x640x640 \ 
  --maxShapes=data:16x3x640x640 \
  --saveEngine=yolov5xu.engine \
  --int8 \
  --calib=/path/to/calibration_images.txt \

参数	值	说明
`--onnx`	`yolov5xu.onnx`	指定输入的 ONNX 模型文件路径
`--saveEngine`	`yolov5xu.engine`	保存生成的 TensorRT 引擎文件路径
`--explicitBatch`	无	启用显式 Batch 模式。告诉 TensorRT 网络的 batch 维度需要明确指定，而不是隐式推断。使用 `--minShapes`/`--optShapes`/`--maxShapes` 时此参数必须添加
`--minShapes`	`data:1x3x640x640`	最小形状：输入 `data` 的最小尺寸是 `batch=1, channels=3, height=640, width=640`
`--optShapes`	`data:8x3x640x640`	最优形状：输入 `data` 的最优尺寸是 `batch=8, channels=3, height=640, width=640`。TensorRT 会针对这个尺寸做最大程度优化
`--maxShapes`	`data:16x3x640x640`	最大形状：输入 `data` 的最大尺寸是 `batch=16, channels=3, height=640, width=640`
`-optimizationLevel`	`3`	TensorRT 整体优化级别。取值范围 0-3，3 为最高级别，会进行最激进的层融合和算子优化，能最大程度提升推理性能
`--builderOptimizationLevel`	`3`	Builder 构建优化级别。同样取值范围 0-3，控制构建引擎时的优化强度。级别 3 会尝试更多内核组合，找到最优方案，但构建时间会显著增加
`--memPoolSize`	`workspace:1024`	内存池大小限制。限制构建引擎时 TensorRT 可以使用的最大工作内存为 1024 MiB (1GB)。这可以防止构建过程中出现 OOM（显存溢出）错误

注意，最好把模型放在jetson设备上转换

|---|---|---|
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |