一、导出onnx
将pt模型转换为onnx模型,以yolo系列为例:
bash
yolo export model=yolo11x.pt imgsz=640,640 batch=8 format=onnx
二、将静态模型转换为动态batch的模型
在trtexec工具的参数中,有maxShapes,minShapes,optShapes几个参数,意思是转换后的模型是动态batch的,当你的实际推理任务中,同时近来了多张图片,那么你可以不用一张一张的去推理,全部丢给模型,一次性推理完。主要目的是提高GPU的吞吐量。
但是我们导出的onnx模型一般batch维度是固定的,因此通过下面这段脚本,将模型的batch维度由一个固定的数值,变成'batch'字符串,这样trtexec在转换的过程中就可以利用maxShapes,minShapes,optShapes这三个参数区优化动态batch推理。不用固定输入1或者8张图片。
python
import onnx
model = onnx.load('yolov5xu.onnx')
# 将输入的第一个维度(batch)改为动态
for inp in model.graph.input:
dim = inp.type.tensor_type.shape.dim
if len(dim) > 0:
dim[0].dim_param = 'batch' # 将 batch 维度改为动态
onnx.save(model, 'yolov5xu_dynamic.onnx')
如果,没有用上面的脚本转换,那么trtexec加maxShapes,minShapes,optShapes三个参数会报错。
三、转换
bash
/usr/src/tensorrt/bin/trtexec \
--onnx=yolov5xu.onnx \
--explicitBatch \
--minShapes=data:1x3x640x640 \
--optShapes=data:8x3x640x640 \
--maxShapes=data:16x3x640x640 \
--saveEngine=yolov5xu.engine \
--int8 \
--calib=/path/to/calibration_images.txt \
| 参数 | 值 | 说明 |
|---|---|---|
--onnx |
yolov5xu.onnx |
指定输入的 ONNX 模型文件路径 |
--saveEngine |
yolov5xu.engine |
保存生成的 TensorRT 引擎文件路径 |
--explicitBatch |
无 | 启用显式 Batch 模式 。告诉 TensorRT 网络的 batch 维度需要明确指定,而不是隐式推断。使用 --minShapes/--optShapes/--maxShapes 时此参数必须添加 |
--minShapes |
data:1x3x640x640 |
最小形状 :输入 data 的最小尺寸是 batch=1, channels=3, height=640, width=640 |
--optShapes |
data:8x3x640x640 |
最优形状 :输入 data 的最优尺寸是 batch=8, channels=3, height=640, width=640。TensorRT 会针对这个尺寸做最大程度优化 |
--maxShapes |
data:16x3x640x640 |
最大形状 :输入 data 的最大尺寸是 batch=16, channels=3, height=640, width=640 |
-optimizationLevel |
3 |
TensorRT 整体优化级别。取值范围 0-3,3 为最高级别,会进行最激进的层融合和算子优化,能最大程度提升推理性能 |
--builderOptimizationLevel |
3 |
Builder 构建优化级别 。同样取值范围 0-3,控制构建引擎时的优化强度。级别 3 会尝试更多内核组合,找到最优方案,但构建时间会显著增加 |
--memPoolSize |
workspace:1024 |
内存池大小限制 。限制构建引擎时 TensorRT 可以使用的最大工作内存为 1024 MiB (1GB)。这可以防止构建过程中出现 OOM(显存溢出)错误 |
注意,最好把模型放在jetson设备上转换
|---|---|---|
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |