【论文解析】HAQ: Hardware-Aware Automated Quantization With Mixed Precision

作者及发刊详情

@inproceedings{haq,

author = {Wang, Kuan and Liu, Zhijian and Lin, Yujun and Lin, Ji and Han, Song},

title = {HAQ: Hardware-Aware Automated Quantization With Mixed Precision},

booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},

year = {2019}

}

摘要

Motivation

  • DNN硬件加速器开始支持混合精度(1-8位)进一步提高计算效率,这对找到每一层的最佳位宽提出了一个巨大的挑战:它需要领域专家探索巨大的设计空间,在精度,延迟,能耗和模型大小之间权衡。
  • 当前有很多专用的神经网络专用加速器,但没有为这些加速器设计专用的神经网络优化方法。传统的量化算法忽视了不同的硬件架构,网络所有层都采用一种量化方式。

Contribution

1)自动化

提出了自动量化框架,无需领域专家或基于规则的启发式方法,将人力从探索位宽选择中解放出来

2)硬件感知

该框架在循环指令流中考虑了硬件架构,不依赖中间信号(proxy signal),可以直接减少延迟、能耗和存储

3)专用化

为不同的硬件架构都提出专门的量化策略,完全为目标硬件架构定制,以优化延迟和能耗。

4)设计视角

将计算和访存都考虑在内,为不同的硬件架构提供了不同的量化策略解释

Approach

引入了基于硬件感知的自动量化(HAQ)框架,该框架利用强化学习来自动确定量化策略,并在设计回路中获取硬件加速器的反馈。而不是依赖于代理信号,如FLOPS和模型大小,该文使用一个硬件模拟器来生成直接的反馈信号(延迟和能耗)到RL代理。

Experiment

实验验证平台:

选用模型:

训练数据集:

推理任务

工具:

实验评估

结论

框架有效地减少了1.4-1.95×的延迟和1.9×的能耗,而accu的损失可以忽略不计

参考文献

MIT开源开源项目链接

参考链接:
机器之心@知乎:寻找最佳的神经网络架构,韩松组两篇论文解读
KGback:人工智能和机器学习入门

相关推荐
深小乐7 分钟前
AI 周刊【2026.04.06-04.12】:Anthropic 藏起最强模型、AI 社会矛盾激化、"欢乐马"登顶
人工智能
微臣愚钝12 分钟前
prompt
人工智能·深度学习·prompt
深小乐17 分钟前
从 AI Skills 学实战技能(六):让 AI 帮你总结网页、PDF、视频
人工智能
宝贝儿好24 分钟前
【LLM】第二章:文本表示:词袋模型、小案例:基于文本的推荐系统(酒店推荐)
人工智能·python·深度学习·神经网络·自然语言处理·机器人·语音识别
周末程序猿42 分钟前
详解 karpathy 的 microgpt:实现一个浏览器运行的 gpt
人工智能·llm
ACP广源盛139246256731 小时前
破局 Type‑C 切换器痛点@ACP#GSV6155+LH3828/GSV2221+LH3828 黄金方案
c语言·开发语言·网络·人工智能·嵌入式硬件·计算机外设·电脑
xixixi777771 小时前
通信领域的“中国速度”:从5G-A到6G,从地面到星空
人工智能·5g·安全·ai·fpga开发·多模态
Dfreedom.1 小时前
计算机视觉全景图
人工智能·算法·计算机视觉·图像算法
EasyDSS2 小时前
智能会议管理系统/私有化视频会议平台EasyDSS私有化部署构建企业级私域视频全场景解决方案
人工智能·音视频
zhanghongbin012 小时前
成本追踪:AI API 成本计算与预算管理
人工智能