jetson上trtexec模型转换

一、导出onnx

将pt模型转换为onnx模型,以yolo系列为例:

bash 复制代码
 yolo export model=yolo11x.pt imgsz=640,640 batch=8 format=onnx

二、将静态模型转换为动态batch的模型

在trtexec工具的参数中,有maxShapes,minShapes,optShapes几个参数,意思是转换后的模型是动态batch的,当你的实际推理任务中,同时近来了多张图片,那么你可以不用一张一张的去推理,全部丢给模型,一次性推理完。主要目的是提高GPU的吞吐量。

但是我们导出的onnx模型一般batch维度是固定的,因此通过下面这段脚本,将模型的batch维度由一个固定的数值,变成'batch'字符串,这样trtexec在转换的过程中就可以利用maxShapes,minShapes,optShapes这三个参数区优化动态batch推理。不用固定输入1或者8张图片。

python 复制代码
import onnx

model = onnx.load('yolov5xu.onnx')

# 将输入的第一个维度(batch)改为动态
for inp in model.graph.input:
    dim = inp.type.tensor_type.shape.dim
    if len(dim) > 0:
        dim[0].dim_param = 'batch'  # 将 batch 维度改为动态

onnx.save(model, 'yolov5xu_dynamic.onnx')

如果,没有用上面的脚本转换,那么trtexec加maxShapes,minShapes,optShapes三个参数会报错。

三、转换

bash 复制代码
/usr/src/tensorrt/bin/trtexec \
  --onnx=yolov5xu.onnx \ 
  --explicitBatch \
  --minShapes=data:1x3x640x640 \ 
  --optShapes=data:8x3x640x640 \ 
  --maxShapes=data:16x3x640x640 \
  --saveEngine=yolov5xu.engine \
  --int8 \
  --calib=/path/to/calibration_images.txt \
参数 说明
--onnx yolov5xu.onnx 指定输入的 ONNX 模型文件路径
--saveEngine yolov5xu.engine 保存生成的 TensorRT 引擎文件路径
--explicitBatch 启用显式 Batch 模式 。告诉 TensorRT 网络的 batch 维度需要明确指定,而不是隐式推断。使用 --minShapes/--optShapes/--maxShapes 时此参数必须添加
--minShapes data:1x3x640x640 最小形状 :输入 data 的最小尺寸是 batch=1, channels=3, height=640, width=640
--optShapes data:8x3x640x640 最优形状 :输入 data 的最优尺寸是 batch=8, channels=3, height=640, width=640。TensorRT 会针对这个尺寸做最大程度优化
--maxShapes data:16x3x640x640 最大形状 :输入 data 的最大尺寸是 batch=16, channels=3, height=640, width=640
-optimizationLevel 3 TensorRT 整体优化级别。取值范围 0-3,3 为最高级别,会进行最激进的层融合和算子优化,能最大程度提升推理性能
--builderOptimizationLevel 3 Builder 构建优化级别 。同样取值范围 0-3,控制构建引擎时的优化强度。级别 3 会尝试更多内核组合,找到最优方案,但构建时间会显著增加
--memPoolSize workspace:1024 内存池大小限制 。限制构建引擎时 TensorRT 可以使用的最大工作内存为 1024 MiB (1GB)。这可以防止构建过程中出现 OOM(显存溢出)错误

注意,最好把模型放在jetson设备上转换

|---|---|---|
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |
| | | |

相关推荐
冬奇Lab2 小时前
Workflow 系列(06):安全——跨步骤注入传播与四层防御
人工智能·工作流引擎
冬奇Lab2 小时前
每日一个开源项目(第149篇):RAG-Anything - 把图片、表格、公式当成一等公民的多模态 RAG 框架
人工智能·开源
米小虾2 小时前
AI Agent 安全实战指南:当智能体开始"不听话",开发者该如何应对?
人工智能·安全·agent
IT_陈寒4 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术6 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12276 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队6 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇6 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师7 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc