因地不真,果招迂曲。

添加图片注释,不超过 140 字(可选)
近日,昇腾计算产业发展峰会上演震撼一幕,华为公司高层主动向外展示了用户关于CANN的建议------"底层能力不开放"、"软件包不够灵活易用"、"对开源社区支持不足"......在外界看来,这更像是昇腾软硬件生态体系下的道道伤疤。
而终于敢于袒露伤疤的华为,时机把握的十分巧妙------既在昇腾盘古双双暴雷之后,又在CANN开源开放之间,更在NPU正式转向GPGPU之前。
为何自揭伤疤?
相较于华为开源CANN的一片喧嚣,所谓的用户建议在公关传播层面显得低调而浅淡。尽管这可能是华为首次自曝昇腾产品体验问题。
根据业界流出的有限的几张拍摄资料,昇腾CANN架构痛点主要表现在三个方面:
- 底层能力开放不彻底,影响业务发展和人员成长。具体表现为全量runtime能力未开放,且未提供基于指令集的编程能力。
- 软件包太大,灵活性、易用性不足,影响客户快速创新。如各类组件未解耦,单个组件升级,也需要等待整个CANN包发布。
(3)对业界主要开源社区支持不够,影响工作效率和人员招聘。比如对Triton、vLLM,SGLang等支持不好。
很难说上述问题是否涵盖所有昇腾开发者心声,但一向爱惜羽毛的民族品牌巨擘,突然在用户体验上自曝其短,理论上应该打满同情分。
当然,如果考虑到近日来昇腾口碑的种种波折,这一举措选择的时机又分外让人玩味。
先有盘古"造假"事件,暴露出昇腾大模型训练不力的短板;再有NPU全面转向GPGPU的传闻,被广泛解读为昇腾场景化应用不足,生态发展乏力;又有CANN宣布开源,号召共建昇腾生态,被业内质疑其用开发者"填坑",为昇腾转型追赶国产GPGPU提供燃料......
种种迹象联系起来,让昇腾"官方认证"的伤疤,明显少了几分壮烈,多了些许无奈和机心。
用户是否买账?
随着昇腾产品问题集中爆发,华为貌似已经做好两手准备。
一方面释放出GPGPU转型信号,在底层技术路线上换道延续昇腾迭进空间;另一方面通过开源CANN,在生态上极力鼓动开发者进场搬砖,甚至不惜再次打出悲情牌。
"昇腾虽然存在不少问题,但如果中国人都不用自己的产品,国产芯片怎么能好起来?"这些官方口径上的未尽之言,被广泛付诸于第三方公知之口。
然而时移世易,对华为来说,以大局和情怀拉动市场的手段正在失灵。
沐曦、壁仞、摩尔线程等国产GPGPU蜂拥而起,囿于NPU窄巷的昇腾明显代表不了大局。同时,开发者对于昇腾此前种种拉胯表现,也很难再鼓起勇气单纯为情怀买单。
业内对比了昇腾与主流芯片路线的适配性差异:NPU + CANN 的方案迁移适配以月度为单位,国产GPGPU + CUDA生态的方案以天为单位。两者仅在部署效率上就差出10倍以上。而且若基于昇腾做后续开发需要华为技术人员支持,GPGPU用户则能独立完成大部分开发工作。
在实用性方面,有人从编程角度算过一笔账------
大部分大模型专家根本就不会编程(假设有20%会亲自编程);这部分会编程的人,大部分编程能力一般,根本没有迁移的能力(假设20%有迁移能力);这部分有能力的人大部分没有迁移的兴趣(假设只有20%有兴趣)。
若以此粗略推算,相比GPGPU主流路线,昇腾的有效客户只有可怕的0.8%。
当前国内大量闲置的昇腾算力仿佛也在印证这一点。尤其2023年-2024年新基建大规模建设后的一段时间内,如何有效消化国产算力成为难题,很多昇腾智算中心都存在闲置浪费。
添加图片注释,不超过 140 字(可选)
转型前景如何?
"不是不愿买或者买不起,而是真的伤不起。"
昇腾的市场口碑,在盘古大模型暴雷后彻底坠至低点。毕竟即便不考虑迁移难度和实用性问题,一个连自家业务都支持不起来的产品,外界如何给予期待?
当内部员工曝出盘古"套壳"、"续训",甚至在昇腾算力之外还需要NV卡支持,从NPU全面转型GPGPU俨然成为其唯一解。而市场上对此态度显得颇为割裂。
借势"384超节点"、"CANN开源"等热点,舆论场上先是涌现出一阵亢奋的叫好声,"昇腾全面碾压英伟达"、"华为独抗西方列强"...诸如此类极具煽动性又颇为无脑的论调甚嚣尘上。
随后,有专业人士逆风出面降温,指出NPU相较于GPGPU并不契合当前AI应用快速迭代的需求趋势,而转向GPGPU对昇腾来说无异于推到重来,客观上要面对多重壁垒。
根据第三方观点,昇腾作为ASIC路线,在特定任务上表现较好。但当前大模型应用正加速演变,昇腾芯片的效率和灵活性严重不足,不仅难以支撑快速变化的算子开发、适配、调优等需求,在适配新算法或新框架时工作量远远高于GPGPU。
显然,昇腾架构转型既有其必要性,也有路线纠偏试错的原因。
但值得注意的是,随着昇腾底层架构转换,对已经交付的项目和对应的市场影响十分显著。比如昇腾投入新架构研发后,原有架构的支持力度必然会减少,而两种架构差别巨大,几乎无法复用之前的软件栈(包括基础环境、优化的核心算子、编译器等)。
上述人士预测,接下来,用户原有购买的NPU软件栈可能无法维系更新,导致后续的模型算法无法有效支持,进而造成芯片价值衰减和客户投资亏损。"此次开源CANN并主动自曝问题,无疑是以退为进之举。本质上是借助开发者力量维系生态发展,缓解供需两端的矛盾。"
好一出击鼓传花的大戏。当老客户问题浮出水面,果断吸纳新用户填补短板,昇腾转型的代价无形中成功转嫁分摊,对华为来说有百利无一害。
不可否认,任何生态发展逻辑都是强者愈强。只是机关算尽之下还有多少人愿意入瓮?这种动机不纯的把戏最终又该如何谢幕?这些都要等到因果成熟时才能尝出其中三味。