DeepSeek 这次的重点不在模型 V3.1,而是在DeepSeek在其官宣发布DeepSeek-V3.1的文章中提到,DeepSeek-V3.1使用了UE8MO FP8 Scale的参数精度。另外,V3.1对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。DeepSeek官微在置顶留言里表示UE8MO FP8是针对即将发布的下一代国产芯片设计。一则官方留言让整个AI圈都轰动了:

新的架构、下一代国产芯片,总共短短不到20个字,却蕴含了巨大信息量。 国产芯片企业股价也跟风上涨,比如寒武纪今日早盘盘中大涨近14%,总市值跃居科创板头名。这里面有几个疑问:这个UE8M0 FP8到底是什么?下一代国产芯片,又是指什么?
UE8M0 FP8是**** 什么?****
"UE8M0 FP8"这个概念,可以拆分成前后两个部分来解释,前面的UE8M0,是MXFP8路径里的"缩放因子"。
MXFP8是Open Compute Project在2023年发布的《Microscaling (MX) Formats Specification v1.0》里定义的8 bit微缩块格式。Open Compute Project是2011年由Facebook*(现Meta)*联合英特尔、Rackspace等发起的开源硬件协作计划,目的是通过共享数据中心及服务器设计推动行业效率提升。其成员阵容相当强大,国外还有微软、谷歌、亚马逊、AMD、英伟达等,而国内的阿里、腾讯、百度等也参与其中。它通过:
- 块缩放(Block Scaling) :将一个张量(Tensor)分割成小块(例如每32个元素一块),每个块共享一个缩放因子(Scale Factor,常用UE8M0格式存储)。这有效扩展了低精度格式的动态范围,避免了数值溢出或精度损失。
- 硬件原生支持:新一代AI芯片(如NVIDIA Blackwell)的Tensor Core已原生支持MX格式计算,能在单元内完成数据、缩放因子计算和矩阵乘法,显著提升效率。
对于AI计算,尤其是大模型训练和推理,MXFP8能带来:
- 计算效率提升:相比FP16,FP8计算吞吐量可提升约2倍。
- 显存占用降低:模型参数显存占用减半,允许部署更大模型或降低硬件成本。
- 功耗降低:数据搬运和计算的能耗显著下降。
MXFP8是一种结合了微缩放(Microscaling)技术的8位浮点格式,能有效提升大模型训练的效率和降低显存占用,以下是已量产或计划支持的相关芯片:
|------|--------------|-----------|---------------------------------------------------------|---------------------------------|
| 公司 | 芯片型号 | 状态/发布时间 | 关键特性 | 支持情况 |
| 寒武纪 | 思元590/690系列 | 已支持/已流片 | 支持FP8 | MLU370-S4、思元590及690系列芯片均支持FP8计算 |
| 华为 | 昇腾910D/920系列 | 计划支持 | 预计2025年Q4支持原生FP8 | 路线图显示2025年第四季度将加入支持行列 |
| 燧原科技 | 燧原L600 | 2025年7月发布 | 国内首款原生支持FP8低精度计算的训推一体AI芯片,配备144GB存储容量和3.6TB/s存储带宽 | 原生支持FP8 |
| 沐曦 | 曦云C600 | 2025年Q4量产 | 基于XCORE1.5架构原生支持FP8 Tensor指令及Tensor转置功能,采用HBM3e显存 | 原生支持FP8 |
| 摩尔线程 | MTT S5000 | 已大规模量产 | MUSA架构支持UE8M0 FP8 Scale,利用硬件原生FP8,相比FP16计算算力提升2倍,带宽效率提升 | 原生支持FP8 |
| 海光信息 | 深算系列 | 已支持 | 支持FP8精度 | 深算系列芯片支持FP8 |
| 壁仞科技 | BR100系列 | 已发布 | 支持FP16/INT8计算 | 未明确提及FP8,但具备低精度计算基础 |
| 天数智芯 | 相关产品 | 适配中 | 参与DeepSeek模型适配 | 未明确提及FP8,但正在推进软硬件协同优化 |
UE8M0 FP8 是一种缩放因子格式 。它的核心思想是微缩块(Microscaling, MX)格式:将一个张量分成许多小块(例如每块包含32个数值),每个块共享一个缩放因子(Scale),块内的数值则用低精度格式(如FP8)存储。
- UE8M0:这个名称揭示了其结构。
- U 代表无符号(Unsigned),因为它通常用于处理非负的激活值或缩放因子本身。
- E8 代表8位指数(Exponent)。
- M0 代表0位尾数(Mantissa)。这意味着UE8M0仅能表示2的整数幂(例如 ..., 2^-2=0.25, 2^-1=0.5, 2^0=1, 2^1=2, 2^2=4, ...),其动态范围极大(约2^{-127} 到 2^{128}) 。
- 硬件友好 :由于仅表示2的幂,在硬件解码时只需进行指数位移操作,无需传统的浮点乘法器,这可以显著简化电路、缩短关键路径延迟并降低功耗 。
- 与计算格式协同 :UE8M0 FP8 通常不直接用于计算,而是作为缩放因子,与E4M3或E5M2等计算格式协同工作,共同构成MXFP8格式 。
国产AI芯片厂商正积极布局MXFP8等低精度格式的支持,这背后是软硬协同生态的构建:
- 软件生态支持:DeepSeek(深度求索)等AI厂商在算法和软件层面优化了对FP8格式的支持(如开源DeepGEMM库),并积极与国产芯片适配。这为国产芯片提供了"换道超车"的机会 。
- 突破带宽瓶颈 :许多国产AI芯片在HBM等高带宽内存技术上存在差距。MX格式通过显著降低数据位宽,能有效缓解带宽压力,让算力得到更充分利用 。
- 硬件加速迭代 :上述芯片厂商的新一代产品大多将原生支持FP8作为重要特性,通过架构设计(如专用的Tensor Core、指令集扩展)来高效支持MXFP8计算 。 UE8M0硬件解码简单的特性,使其非常适合在设计自主可控的国产AI加速器中集成,有助于降低功耗、提升能效比。
- 应对技术封锁:在美国对高端AI芯片实施出口管制的背景下,推动国产算力发展至关重要。支持MXFP8等先进格式,有助于缩小国产芯片与国际顶尖产品在实际应用中的性能差距。
如果你在选择支持MXFP8的国产AI芯片,可以考虑以下几点:
- 确认原生支持 :关注芯片是否原生支持FP8计算(而并非仅通过软件模拟或转换),这直接影响计算效率 。
- 关注软件生态:了解芯片与主流AI框架(如DeepSeek、TensorFlow、PyTorch)的适配情况,以及其低精度计算库的成熟度 。
- 考察实际性能 :关注芯片在特定负载(如大模型训练或推理)下的实际算力、显存带宽和能效表现 。
- 了解量产进度:部分芯片可能已发布但尚未大规模量产,需确认其供货情况和使用案例。
总结
支持MXFP8 的国产AI芯片阵容正在不断扩大,包括寒武纪、燧原科技、华为、沐曦、摩尔线程、海光信息 等厂商的产品 。这反映了国产AI算力在软硬协同 发展上的进步,旨在提升大模型处理效率,并减少对国外高性能GPU的依赖。希望这些信息能帮助你更好地了解国产AI芯片对MXFP8的支持情况。