
对抗英伟达?成为英伟达。
日前,华为正式宣布开源其AI计算架构CANN,并提出要打造"中国自己的CUDA"。结合此前"昇腾NPU改道GPGPU"的传闻,此举不仅进一步释放出昇腾战略转向信号,同时也描摹出一幅"全面对标英伟达"的崭新图景。
从底层架构变迁到上层生态重建,一夕之间换了新天。今天的昇腾,前路格外引人注目。
官宣:CANN开源号召共建昇腾生态
8月5日,华为轮值董事长徐直军在昇腾计算产业发展峰会上宣布,华为昇腾硬件使能CANN全面开源开放,Mind系列应用使能套件及工具链全面开源。
官宣消息显示,这一举措主要为了支持用户自主的深度挖潜和自定义开发,加速广大开发者的创新步伐,让昇腾更好用、更易用。"华为AI战略的核心是算力,并坚持昇腾硬件变现。"
据悉,CANN全称为"神经网络异构计算架构",其直接对标对象正是英伟达的CUDA。对开发者来说,CANN是把上层AI训练框架(如PyTorch、TensorFlow、MindSpore)和底层昇腾芯片连接起来的桥梁,让开发者不用关心芯片细节就能调用底层算力。
当然,相较于CUDA,CANN在开发者规模、架构成熟度和生态完善度方面,均存在差距。这在很大程度上影响到昇腾芯片的易用性,用户在生态路线选择上更倾向于前者。
华为方面表示,公司与各界伙伴探讨了如何更好地构建昇腾生态,并发起《CANN开源开放生态共建倡议》,以凝聚产业力量,共探AI边界,共建昇腾生态。
显然,华为希望通过开源CANN,吸引更多开发者扩大其生态圈,拉近与CUDA的差距,并以此弥补昇腾产品早期易用性不足的问题。
值得一提的是,业内此前就传出"昇腾NPU转向GPGPU"的消息,并被视为国产ASIC芯片向主流技术路线靠拢的信号。此次CANN开源融入主流生态,无疑再次验证了这一点。

热议:NPU留下的坑没那么好填?
面对开源CANN发出的生态召集令,业界给出的反应值得玩味。部分观点颇为尖锐,认为昇腾NPU变道后会导致原有软件栈无法维系更新,这时候开源CANN吸纳开发者"惠而不费"。
有人将"昇腾转型GPGPU"和"CANN开源"合并探讨。"NPU走不下去了,原本基于NPU搞编译器的组就要转到基于GPGPU搞编译器,那原来的CANN内部没精力优先级维护了,正好放出来给'冤大头'们用。"
另外,也有观点指出,开源是好事,问题在于NPU本来就没有GPU好编程。"全国不知道能不能找得出来一百个写昇腾算子写得很六的,因此开源社区能对昇腾的生态做出多少贡献我还是存疑。搞不好全是'华子'自己的员工在上面commit。"
业内对CANN的"戒心",源于昇腾NPU一贯以来的封闭特点。
根据公开资料,NPU与GPGPU架构存在根本技术差异,在场景应用上的定位也完全不同。NPU若从此前的全定制化路线转向通用GPGPU,新架构体系几乎无法复用之前的软件栈(包括基础环境、优化的核心算子、编译器等)。
"如果大量人员投入新架构研发,原有的NPU软件栈更新可能会陷入停滞。"某业内人士表示,这会导致后续的新模型或算法无法有效支持,不能充分发挥已采购芯片的价值,造成客户投资亏损。"这时候引导开发者进驻CANN,相当于靠大家一起去'填坑'。"
正值昇腾架构更迭之际,内有NPU架构生态问题悬而未决,外有英伟达和国产GPGPU"珠玉在前"。也有部分开发者对此时开源的CANN态度十分保守。
前瞻:昇腾转向GPGPU或成定局
尽管CANN生态前景存在不确定性,但昇腾转向GPGPU几乎已成定局。种种迹象表明,ASIC芯片并不适用于主流场景需求,NPU架构路线甚至被一些媒体定义为"战略方向性失误"。
有专业人士分析,NPU和GPGPU相比,最大的问题在于软件适配成本。"由于整个深度学习生态都建立在CUDA之上,最新的算法和尝试也都基于英伟达的卡实现。将这些代码迁移到NPU上,需要大量的时间和开发成本。"
据介绍,NPU和GPU本身的差异,导致需要特定的范式才能发挥出NPU全部的功能。比如gpu kernel需要用ascend-c定制,cpu launch kernel怕打断、小内存访问低效等。
华为基于历史惯性,一直力推自己的软件栈(如Mindspeed-LLM、Mindspeed-RL、MindIE)。可惜具体到项目落地中效果并不理想,比如今年爆火的 DeepSeek-GRPO,想要在NPU上进行 GRPO训练,需要等待华为投入人力适配优化,根本跟不上市场节奏。
上述人士指出,从1月底GRPO 爆火,2月初英伟达就已经有了社区的复现方案,到3月份verl都已经基本成熟。而昇腾卡直到6月份,grpo还处于"凑合能用"的状态。如果要跑其他强化学习算法(如DAPO、PPO等),在昇腾卡上还需要继续等待。
相对来说,GPGPU提供了另一种完全不同的思路------根据 NVIDIA GPU 公开(解密)的接口制造兼容 CUDA (PTX) 的硬件,然后做好编译器,提供 cublus、cudnn 等未开源的厂商定制库。上层的软件完全复用cuda的生态(Megatron-LM、vllm、verl、pytorch、flash-attention等)。
依托这种方案,用户进行精度对齐和性能对齐变得非常简便。由于接口完全一致,还可以使用自动化的程序找到精度和性能异常的bug,并进行修复,极大地降低了开发成本。
"昇腾战略转向的目的正在于此",业内分析,华为需要借助GPGPU重新适应AI时代需求趋势。而CANN向开放者敞开怀抱,更大的可能是为其"换道超车"提供更多燃料。"问题在于,接下来会有多少用户登上这驾战车,更换架构引擎后的昇腾又需要陪跑多少里程?"
作者:蒜力一姐
声明:本文来源于网络,仅代表作者个人观点,不代表"技术领导力"立场