5月12日直播丨Ascend 950 HiF8模型量化技术的训推实践

随着大模型训推规模持续增长,8-bit 数据格式已成为提升计算效率、降低显存占用和优化部署成本的重要方向。HiFloat8(HiF8)凭借大动态范围和灵活的精度表达,为大模型在低比特场景下兼顾精度与性能提供了新的路径。

HiF8的全面表达系统性地支持了大模型的低比特训推,其中的关键策略已被沉淀为可复现、可迁移的开源参考实现。在推理侧,提高效率的关键不只是"把权重压到8-bit",更要将低比特表示、scale组织方式和前向计算路径协同设计,从而把收益从存储压缩延伸到模型加载、长文本推理吞吐和端到端性能提升。在训练侧,HiF8的大动态范围也为基于per-tensor delayed scaling的8-bit稳定训练提供了数值基础。

本次直播将结合cann-recipes中的开源实现,系统呈现 Ascend 950 上 HiF8 量化训推链路。推理部分将重点讲解权重离线量化、HiF8前向计算路径、长文本推理优化思路,以及 LongCat 模型在 Ascend 950 上的性能分析;训练部分将介绍HiF8 delayed scaling在OLMo模型上的实验结果、开源Recipe以及在Ascend 950上的性能表现。相关推理与训练流程均已沉淀在 CANN/cann-recipes-infer 和 cann-recipes-train 中,便于开发者开展实验复现、模型适配与性能调优。

我们诚挚邀请广大开发者加入 CANN开源社区,共同探索 HiF8 量化技术在更多模型和场景中的应用与优化。欢迎访问 cann-recipes 开源仓库,提交 Issue 或 PR,与我们共建开放、高效的 AI 基础设施。社区因你而精彩,期待你的贡献与交流!

B站预约链接:点击预约

相关推荐
lifallen1 分钟前
第一章 Agent 为什么会出现
人工智能·ai·ai编程
机器之心2 分钟前
小学生画了撇胡子骗过AI年龄验证,硅谷工程师沉默了
人工智能·openai
海兰3 分钟前
【文字三国志:第六篇】天命重构,UI组件设计细节
人工智能·ui·语言模型·小程序
计算机安禾6 分钟前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝
机器之心8 分钟前
英伟达重新定义PC!史上最高效CPU来了
人工智能·openai
野生技术架构师18 分钟前
Spec Coding 规范驱动编程实战:从 Vibe Coding 到 AI 代码规范
人工智能·代码规范
J2虾虾20 分钟前
Spring AI Alibaba - Tools
服务器·人工智能·spring
雪隐20 分钟前
AI股票小助手02-Akshare数据采集
人工智能·后端
Bacon23 分钟前
手摸手带你搞清楚 AI Agent 的六大核心概念
前端·人工智能
aneasystone本尊24 分钟前
给小龙虾配个浏览器:学习 browser 工具
人工智能