面壁智能联合清华正式开源中国首个基于昇腾训练的 1.58-bit 端侧大模型 BitCPM-CANN

5 月 25 日至 29 日,面壁智能与 OpenBMB 联合举办「端侧大模型开源周」,每天解锁一个端侧大模型的杀手锏。端侧大模型的顶峰,不只在冰山一角,而在整座冰山。今天是开源周的第一弹:低比特大模型训练成果 BitCPM-CANN。

面壁智能联合清华大学、OpenBMB开源社区,在清华大学鲲鹏昇腾科教创新卓越中心的支持下,今天 正式发布并开源其在低比特大模型训练方向的最新成果------BitCPM-CANN

这款中国首个完全基于国产算力平台(华为昇腾)实现端到端训练并开源的三值(1.58-bit)大模型,继日前(5 月 23 日)在华为鲲鹏昇腾开发者大会(KADC 2026)完成首次技术亮相后,今日正式将其全系列模型向全社会开放。

目前,该模型已正式开源并上线 AtomGit AI:

🔗 模型开源地址:

https://ai.atomgit.com/collections/OpenBMB/2058756028210290689

从量化算子、训练算法到全链路框架,BitCPM-CANN 均在 华为昇腾上原生完成,包含 0.5B、1B、3B、8B 四个模型尺寸,与同尺寸 MiniCPM4 全精度家族逐项对照评测,性能表现优异。

相比传统 BF16 精度,BitCPM-CANN 在推理阶段 释放约 6 倍显存红利 ,同时将模型能力保留率维持在 90%-- 97.2 %

手机内存大小决定了可同时运行的「专家」数量,进而决定了可承载的模型总规模。

同样的设备内存,可以承载远超以往的模型能力;或者反过来说,同样的模型能力在同一款终端上运行,只需要过去 1/6 的内存 ------这意味着,未来有望在手机上运行 60B 大模型,手机的智能会大幅提升。

「2-bit」是近一年来端侧芯片行业的热门研究话题,也是在手机上运行更大参数模型的最大技术卡点之一。

2-bit 量化将模型权重压缩 6-8 倍,使其能存入手机闪存,如 4GB 内存能放 16B,再配合 MoE 与激活范围约束、能放 32B;若内存扩大到 8GB,则能将模型参数扩大到 60B。

在内存价格飞涨、端侧设备资源始终受限的情况下,低比特量化成为手机厂商未来市场竞争力的「斩杀线」------大模型能力持续进化,谁能最早用更低的成本将手机做得更智能,谁就能掌握大模型时代的主动权。

BitCPM-CANN 的亮相,标志着面壁智能高效大模型「小钢炮」在端侧落地的能力进一步跃升,同时也通过开源向中国端侧大模型赛道提交了一份新的答卷。

6 倍显存红利,打破端侧 AI 天花板

长期以来,内存的物理瓶颈------包括容量、带宽与成本------是大模型走向规模化应用,尤其是深入手机、PC、汽车等端侧设备时最严峻的挑战。

高盛近期大幅上调预期,AI 服务器引爆的半导体需求链中,存储涨幅最高被看至 280%,内存正在成为全球 AI 供应链中最紧张的资源之一。

针对这一问题,行业的传统解法是后训练量化(Post-Training Quantization,PTQ),即先用高精度(如 BF16)完成模型训练,再将其权重压缩至 INT8 或 INT4。

这本质上是一种「事后补救」,一种「以精度换内存」的工程妥协,压缩越狠,性能损失越大。

BitCPM-CANN 彻底颠覆了这一路径。

它采用的是技术门槛更高、但效果也更优越的 **量化感知训练(Quantization-Aware Training,QAT)**路线------模型并非在训练完成后才被动压缩,而是在训练的初始阶段,就主动学习如何用 1.58-bit 的三值权重(-1,0,+1)来承载和表达知识。

这不再是简单的精度丢弃,而是从根本上让模型在极低比特位宽的约束下「原生生长」,迫使每一个 bit 发挥出最大的信息密度和知识承载效率。

换言之,权重精度不再取决于位宽大小,而是取决于每 bit 承载了多少知识。也因此,低比特训练不再只是一种节省显存的工程手段,而是一种全新的权重知识承载范式。

根据 BitCPM-CANN 与同尺寸 MiniCPM4 全精度模型家族在常识、阅读理解、学科知识、数学与推理等 11 项任务上的 1:1 性能对照,四个模型规模 0.5B、1B、3B、8B的评测结果如下:

从评测结果看,BitCPM-CANN 三个尺寸模型的能力保留率达到 9 5.7 %---9 7.2 % 区间;即使是能力保留最弱的 0.5B,保留率也达到了 90% 以上**(90.1%)。**

这个结果表明:低比特训练的技术路线具备系统性、可扩展性和工程可复现性。

这一范式转变,对手机与芯片等行业的影响是具体而颠覆性的:

对手机产业来说,6 倍的显存红利意味着,一个 8B 参数的 BitCPM-CANN 大模型,可以轻松运行在当前主流旗舰手机之上。

若进一步结合混合专家(MoE)架构,将 50B 乃至 100B 参数的超大模型装入终端,这一在 BF16 时代近乎天方夜谭的设想,如今已拥有了清晰的实现路径。

这无疑将端侧 AI 的能力天花板提升到了全新的高度!PC、汽车等终端也同理。

对芯片生态来说,今年 2 bit 是所有主流端侧芯片厂商的追求,已有部分芯片厂商支持 2-bit 推理,BitCPM-CANN 补全了模型侧的空白。

例如,以高通骁龙8 Gen 4为代表的新一代端侧芯片,已在硬件层面原生支持 2-bit 推理。然而,硬件的就绪需要高质量、可直接落地的低比特模型来匹配。

BitCPM-CANN 精准填补了端侧芯片在低比特模型「供给侧」的巨大空档,为软硬件协同发展提供了关键的弹药。

对 AI 应用来说,内存成本急剧下降。

在全球 HBM(高带宽内存)价格因 AI 服务器需求激增而持续飙升的背景下,BitCPM-CANN 提供的 6 倍显存优化,是一份无需额外硬件投入的、实实在在的「降本方案」。

它允许企业在不增加物理内存的情况下,大幅提升模型能力或服务密度,有效对冲了供应链成本压力。

基于昇腾,攻克国产算力极低比特训练难题

BitCPM-CANN 的另一个重磅意义,在于它 完全基于国产算力平台完成训练

从最底层的量化算子、QAT(量化感知训练)算法,到完整的并行策略和训练框架,BitCPM-CANN 的整个训练链路均在华为昇腾上原生完成。

这是昇腾平台上 首个 公开的、 端到端完成 1.58- bit 训练 并进行 全精度对照评测 的成果,且模型规模一次性推进至 8B 级

这项技术的门槛远超「把一个 GPU 上训好的模型搬到昇腾上跑推理」。过去,国产 NPU 阵营验证低比特训练,通常需要先在 CUDA 上完成再迁移,链路漫长且损耗巨大。

BitCPM-CANN的成功,意味着 国产 NPU 阵营第一次拥有了自己的 1.58-bit 低比特训练栈

面壁智能基于 MindSpeed × Megatron-LM 主干搭建了完整的低比特训练底座,包含环境适配、32K长序列支持、并行策略、融合算子等完整工程体系。从此,所有面向昇腾的低比特训练工作,都可建立在同一套公共基础设施之上。

BitCPM-CANN 用事实回答了一个行业关切的问题:昇腾不仅能训大模型,更能完成世界级的极低比特训练。

国产芯片只能跑推理 的刻板印象, 从此可以正式 翻篇。

端侧大模型:底层功夫决定上层高度

作为「小钢炮」的新成员,低比特大模型 BitCPM-CANN 不是一次孤立的技术路线尝试,而是面壁智能在端侧大模型上的多年技术积累与率先探索爆发。

受终端内存、计算、网络、功耗、散热等多因素的约束,端侧大模型的能力高度在很大程度上取决于算法底层的 Infra 创新根基。自 2022 年自研分布式训练框架 BMTrain 以来,面壁智能在打造端侧大模型地基上,已扎根四年------几乎与 ChatGPT 掀起的大模型热潮期完全重叠。

从训练框架 BMTrain,到稀疏架构 InfLLM,再到低比特量化训练方法BitCPM、推理框架 CPM.cu 等等,面壁智能始终致力于构建体系化的高效端侧大模型方案。

早在 2024 年下半年,在业界对极低位宽 QAT 尚未形成共识时,团队就选定了 ≤2bit 的 QAT 路线------这是一次直接领先于行业的判断。此前在 GPU 上发布的 BitCPM 系列,在发布时即为全球同尺寸最领先的三值模型,BitCPM 1B 全面超越了 BitNet 2B,并且只使用了 1/20 的训练算力,训练效率显著优于微软 BitNet 等一类方案。

为什么要在 1.58-bit / 2-bit 这条看起来极端的路线上持续投入?

因为它同时击中了大模型落地最现实的两类约束------**显存容量与带宽的物理瓶颈,以及端侧部署对参数密度的持续追求。**这两个约束不会随硬件进步而消失,只会随模型变大变得更紧迫。

从 MiniCPM 到 BitCPM-CANN,面壁智能在端侧 AI 上的信念始终没有变:不是等硬件变得足够强大来适应模型,而是让模型变得足够聪明来适应硬件。

除此之外,面壁智能专注于对底层硬件的极致优化,此前曾参与协助华为昇腾、鲲鹏,以及寒武纪、天数智芯等国产芯片构建和优化软件栈,由此建立了对国产芯片生态的独特认知积累,并一直致力于实现「国产 NPU + 国产模型 + 国产训练框架」的完整闭环;

基于上述积累,BitCPM-CANN 并非将一项孤立技术移植到昇腾平台,而是将面壁智能已在 GPU 上系统验证的 QAT 训练方法、2-bit 模型路线与训练效率优势,整体推进至国产 NPU 的完整训练底座中,进一步回答这条路线能否在昇腾上形成端到端、可复用、可持续扩展的基础设施。

端侧大模型的性能潜力释放,离不开模型厂商与芯片厂商的共同投入。在这个重要的 AGI 赛道,面壁智能的追求从来不止于参与,而是致力于成为端侧 AI 技术的推动者与构建者。

坚持开源,系统验证

BitCPM-CANN 的发布与开源,实现了国产 NPU、国产模型、国产训练框架的完整闭环,为端侧 AI 产业提供了直接可用的低比特模型方案。

但一项技术路线的真正价值,不在于某个孤立尺寸上跑出的漂亮数字,而在于其系统性、可扩展性与工程可复现性。

为此,面壁智能联合 OpenBMB 开源社区,选择以透明、严谨的方式,将 BitCPM-CANN 全面开源。

希望能为开发者零门槛体验国产算力在低比特场景的真实性能,并在此基础上进行二次创新。

每一 bit 都不该被浪费。我们诚邀全球开发者,共同加入这场探索 AI 效率极限的旅程。

目前,BitCPM -CANN 0.5B / 1B / 3B / 8B 全系列模型权重现已开源并入驻 AtomGit AI,欢迎下载、复现与共建

🔗 模型开源地址:

https://ai.atomgit.com/collections/OpenBMB/2058756028210290689

相关推荐
Raink老师1 小时前
【AI面试临阵磨枪-70】Agent 系统如何做分布式调度、跨服务协作、故障恢复?
人工智能·面试·职场和发展
tedcloud1232 小时前
RTK部署教程:构建稳定的AI Workflow环境
服务器·javascript·人工智能·typescript·ocr
Raink老师2 小时前
【AI面试临阵磨枪-71】如何用 AI 优化推荐系统、内容审核、广告创意、搜索体验?
人工智能·面试·职场和发展
AI医影跨模态组学2 小时前
Biomarker Res(IF=11.5)安徽医科大学第一医院:基于机器学习的放射组学模型:子宫内膜癌患者的预后预测及机制探索
人工智能·深度学习·论文·医学·医学影像·影像组学
ftpeak2 小时前
Mooncake:以 KVCache 为中心的分离式 LLM 服务架构
人工智能·ai·架构·ai编程·ai开发
Terrence Shen2 小时前
Hermes agent的tools是怎么落地应用的系列
人工智能·llm·agent·hermes
Raink老师2 小时前
【AI面试临阵磨枪-72】电商全场景 AI Agent 设计(商品咨询 / 订单 / 物流 / 售后 / 退款)
人工智能·面试·职场和发展
仙女修炼史2 小时前
CNN更看重Texture还是shape:imagenet-trained cnns are biased
论文阅读·人工智能·cnn
视***间3 小时前
视程空间 AIR SC6N0-C-MB NX 16GB 规格详解与机器人/机器狗适配说明
人工智能·机器人·边缘计算·机器狗·ai算力·具身机器人·视程空间
视***间3 小时前
小身板・强算力・全适配 —— 视程空间 AI 算力开发板如何完美适配机器人 / 机器狗
人工智能·机器人·边缘计算·ai算力·视程空间·算力开发板