PTQ 量化数值范围与优化

一、PTQ 模型量化问题

1.1、模型问题

基于公版模型训练,没有对模型做范围做约束,weight_decay=1e-6, 训练出的 float 模型数值分布很大,如图 2,可以看到模型的后面几层数据分布范围很广,最大阈值超过了 8000,对我们量化来说并不友好。

1.2、算子问题

如图 2,基于全 int16 算子配置量化,当前版本 resize 算子有约束(请查阅工具链算子支持情况),只能支持 int8 量化,即使配置了 int16,但算子依旧退化到 int8,因此算子的 cosine 相似度也比较低,基于此阈值,max_qscale=6653/127=52.385,此 scale 过于大,并不能精细化量化模型,所以全 BPU 算子的整体精度都不高。

图 1 公版训练 float 模型

二、精度优化

2.1、cpu 高精度定位

resize 算子有限制,但对于回退 cpu 算子,就能实现 float 精度推理,配置如图 2,

图 2 配置 cpu 算子

配置了算子后,精度提升了,如图 3,可视化效果对比如图 4,整体量化精度可对齐,定位到了具体问题就是 resize 算子限制导致。

图 3 cpu 算子精度

图 4 cpu 算子可视化精度

2.2、添加 bn,加大 weight_decay

在最后的 conv 层后加上 bn 算子限制特征数据分布,同时 weight_decay 从 1e-6 调整到 1e-3,整体数据范围如图 5、图 6,模型的数据分布变小了,最后的 cosine 相似度精度也很高,非常利于 int8 量化,后期配置了 int8 量化,模型也可实现高精度量化。

图 5 全 int16 量化

图 6 部分 int16 量化

相关推荐
折哥的程序人生 · 物流技术专研7 小时前
Java面试85题图解版 · 特别篇:2026后端高频面试题复盘(算法底层逻辑+高并发架构设计全解析,附Java实战代码)
java·网络·数据库·算法·面试
想吃火锅10059 小时前
【leetcode】14.最长公共前缀js
算法·leetcode·职场和发展
云絮.10 小时前
数据库操作
数据库·mysql·算法·oracle
小林ixn10 小时前
LeetCode 206. 反转链表(迭代 + 递归详解)
算法·leetcode·链表
凡人叶枫10 小时前
Effective C++ 条款17:以独立语句将 newed 对象置入智能指针
java·linux·开发语言·c++·算法
菜鸟‍12 小时前
LeetCode 1 27 和 704 || 两数之和 移除元素 二分查找
算法·leetcode·职场和发展
退休倒计时13 小时前
【每日一题】LeetCode 142. 环形链表 II TypeScript
算法·leetcode·链表·typescript
popcorn_min13 小时前
Digits 手写数字识别:随机森林多分类 + 像素级特征热力图
算法·随机森林·分类
liulilittle14 小时前
拥塞控制:排水终止的两种决策:OR 与 AND
网络·tcp/ip·计算机网络·算法·信息与通信·tcp·通信
weixin_3077791314 小时前
从脚本执行到智能体协作:AI辅助测试能力的范式重构
运维·开发语言·人工智能·算法·测试用例