YOLOv8模型ONNX格式INT8量化轻松搞定

1.ONNX格式模型量化

深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段,ONNXRUNTIME支持模型的简化、量化等脚本操作,简单易学,非常实用。

ONNX 模型量化常见的量化方法有三种:动态量化、静态量化、感知训练量化,其中ONNXRUNTIME支持的动态量化机制非常简单有效,在保持模型精度基本不变的情况下可以有效减低模型的计算量,可以轻松实现INT8量化。

复制代码
动态量化:此方法动态计算激活的量化参数(刻度和零点)。静态量化:它利用校准数据来计算激活的量化参数。量化感知训练量化:在训练时计算激活的量化参数,训练过程可以将激活控制在一定范围内。

当前ONNX支持的量化操作主要有:

Opset版本最低不能低于10,低于10不支持,必须重新转化为大于opset>10的ONNX格式。模型量化与图结构优化有些是不能叠加运用的,模型开发者应该意识这点,选择适当的模型优化方法。

ONNXRUNTIME提供的模型量化接口有如下三个:

复制代码
quantize_dynamic:动态量化quantize_static:静态量化quantize_qat:量化感知训练量化

2.FP16量化

首先需要安装好ONNX支持的FP16量化包,然后调用相关接口即可实现FP16量化与混合精度量化。安装FP16量化支持包命令行如下:

复制代码
pip install onnx onnxconverter-common

实现FP16量化的代码如下:

3.INT8量化

最简单的量化方式是动态量化与静态量化。选择感知训练量化机制,即可根据输入ONNX格式模型生成INT8量化模型,代码如下:

4.案例说明

YOLOv8自定义模型ONNXINT8量化版本对象检测演示

以作者训练自定义YOLOv8模型为例,导出DM检测模型大小为,对比导出FP32版本与INT8版本模型大小,相关对比信息如下:

使用FP32版本实现DM码检测,运行截图如下:

使用INT8版本实现DM码检测,运行截图如下:

ONNXRUNTIME更多演示

相关推荐
witAI5 分钟前
**AI漫剧制作工具2025推荐,解锁高效创作新体验**
人工智能·python
qinyia8 分钟前
如何在服务器上查看网络连接数并进行综合分析
linux·运维·服务器·开发语言·人工智能·php
新缸中之脑11 分钟前
构建一个论文学习AI助手
人工智能·学习
说私域11 分钟前
私域流量生态重构:链动2+1模式S2B2C商城小程序的流量整合与价值创造
人工智能·小程序·流量运营·私域运营
圆奋奋12 分钟前
让“小爱音箱PRO”智能起来:接入豆包AI
人工智能
aiguangyuan15 分钟前
使用PyTorch和Hugging Face Transformers构建GPT教学演示:从基础原理到实践应用
人工智能·python·nlp
自可乐16 分钟前
Apache Airflow完全学习指南:从入门到精通的系统教程
人工智能·机器学习·apache
说私域18 分钟前
AI智能名片S2B2C商城小程序赋能下线上向线下导流的机制与效果研究——基于线下专属优惠券的视角
人工智能·小程序·流量运营·私域运营
朴实赋能21 分钟前
2026跨境电商生死局:AI大模型重构购物链路,智矩引擎打造品牌出海“自动驾驶”系统
人工智能·社媒矩阵·文旅出海·海外社媒引流·ai大模型跨境电商·shopify独立站引流·社媒矩阵流量创造
啊巴矲22 分钟前
小白从零开始勇闯人工智能:计算机视觉初级篇(OpenCV补充(1))
人工智能·opencv·计算机视觉