筑牢智算“地基”:华为以RAS理念重塑AIDC建设新模式

Token狂飙300倍,我们的智算"地基"如何托举这场AI洪峰?

文|赵艳秋

编|牛慧

"如果看上层智算的发展速度,你就知道我们基础设施层面临多大压力。"华为中国数字能源数据中心能源拓展部部长石忆开门见山地说。

生成式AI的增速惊人,可能是移动互联网的"三倍速"。根据国家数据局的信息,2024年初全国日均token使用量为1000亿,到2025年6月底已飙升至日均30万亿,18个月增长约300倍。有业内人士感叹,如果势头持续下去,"token"这个单位恐怕都要换了,否则难以计量这场爆发式增长。

这场由AI驱动的智能化浪潮,正在把智算基础设施推向前所未有的挑战与拐点。

01

AI在狂飙,"地基"在冒烟?

今年以来,国内token用量呈现"六路并进"大潮:互联网大厂都在大力投资,全力改写自身产品矩阵;金融行业从"单点试水"进入"全栈渗透";制造业用智能体重构更柔性的业务流,超越日企"精益制造";创业公司中"下一个黑马企业"已诞生;具身智能、视频生成有望成长为新一代万亿级产业;全国生成式AI用户今年6月已达5.15亿人。

"我们处在一个最好的时代 。"石忆说,无论是工业变革,还是信息变革,AI带来了前所未有的机遇。在这样的背景之下,2025 年中国智算中心建设继续"高歌猛进",智算中心年复合增长率在40%~46%之间

但在高速扩张的同时,智算中心的结构性矛盾与运营痛点也集中暴露。石忆最近与很多客户交流发现,大家还有几个共同的焦虑。比如对智算中心的安全担忧,高能耗、高功率引发的一系列问题,以及对"建成即过时"的担忧

"这也是一个很焦虑的时代。"石忆说。具体来说,当下基础设施面临几大核心挑战:

首先是安全性挑战。智算中心正迅速高密化,一个10MW智算中心承载的算力,是通算中心的100多倍,其上运行的大模型训练与推理极多,一旦断电宕机,将造成巨大经济损失。

其次是快速交付挑战。为更快上线业务,OTT客户普遍要求数据中心在6--12个月内投运,而传统数据中心通常需18--24个月以上。

再次是数据中心弹性挑战客户最焦虑的是"建成即过时"。随着摩尔定律失效,"后摩尔时代"接棒,芯片一年一迭代,但数据中心寿命动辄十年,如何不被技术浪潮"反噬"?

第四是运营变现压力。随着数据中心高密化,供配电系统侵占白空间,导致可运营面积缩水,"这种状况必须改变。"石忆说。

最后是资源挑战。大型智算中心能耗堪比中小城市,能耗、土地、水资源消耗激增,运营商OPEX压力、资源供需矛盾正成为行业的最大瓶颈。

为应对上述挑战,石忆谈及,华为提出AIDC建设理念"RAS",即要打造安全可靠(Reliable),弹性敏捷(Agile),绿色低碳(Sustainable)的智算底座

02

安全、弹性与每一瓦电的较量

在"RAS"建设理念中,安全可靠是智算底座的基石。"它就像人的健康一样,是前面的'1',其他都是后面的'0'。"石忆说。围绕这一核心,华为从架构、产品到运维,重构了数据中心的全生命周期体系。

在架构层面,通过分布式设计降低故障波及范围,并将储能系统隔离部署,规避潜在连锁灾害;在产品层面,以全流程质量管控确保可靠性,华为UPS可靠性达业界2倍;在智能化层面,数据中心"服务AI"也"由AI驱动",过去一年,华为投入海量资源进行算法开发,实现锂电"上电即上云"的主动预警。

面对AI高速演进,弹性敏捷成为新的竞争点。客户最大担忧是"建成即过时",**"弹性数据中心是唯一选择。"**石忆说。华为通过系统解耦、模块化和标准化,使供电、制冷、IT子系统相互独立,灵活部署。预制化交付让大量工序前置工厂,现场施工周期缩短超六成。例如华为云(芜湖)数据中心项目,仅用三个月完成交付,为行业树立新标杆。

在高密度时代,绿色低碳成为可持续发展的底线。"电力就是算力的上限"已成行业共识,石忆强调,关键是高效用电,来解决算和电的根源性矛盾。华为UPS在S-ECO模式下效率高达99.1%;通过AI协同制冷,让能源与算力设施"联合作战",显著降低PUE。以500MW数据中心为例,PUE每降低0.1,一年可节省电费约2亿元。

同时,越来越多智算中心建设在风光电富集区,实现"绿电直供、就地消纳"。在储能环节,传统铅酸电池正在被高效、占地更小、可智能管理的锂电池替代。华为推动锂电标准化,并推出"锂电池管理安全卫士"系统。目前,锂电方案已在多个项目中落地。

石忆强调,安全靠的是高质量,而高质量不是低成本的产物。从数据中心10至15年的生命周期看,一次中断造成的损失远超在可靠与绿色基础设施上的投入。真正的矛盾,不在安全与低碳之间,而在短期成本与长期价值之间。

03

"软着陆"与"快起飞"

在数据中心建设中,新建与改造并重。全国在网机架已达千万级,不少设备服役超过8年,逐步进入改造期。许多客户担心改造意味着"大动干戈" ,石忆表示,通过场景化解决方案,企业可实现"软着陆" 。而对需从通算迈向高密智算的场景,新建过程中需要"快起飞"

在金融等对可靠性要求极高的行业,核心是不影响现有业务连续性。在实践案例中,中金数据昆山中心通过部署华为高质量UPS实现系统无感升级;上交所金桥数据中心通过部署iCooling@AI能效解决方案,年均PUE降低0.25,年省电累计240 万度。

对缺乏专业运维团队或希望"开箱即用"的政务、教育、制造等用户,华为提供一体化微模块数据中心,东莞滨海湾新区快速上线DeepSeek政务应用,国家气象局构建风云三号数据中心,实现业务快速上线,备电系统采用智能锂电柜,节省70%占地并支持预测性维护。

对于从通算迈向高密智算的场景,华为通过全预制化、模块化方案,将原本需要1-2年的建设周期,压缩至半年甚至更短。

中国移动呼和浩特数据中心采用华为EHU间接蒸发冷却、电力模块和iCooling@AI能效调优解决方案,降低制冷能耗10%,节省配电面积40%,PUE低至1.15。博大数据前海智算中心通过采用华为电力模块3.0,打造省地、省电、省时、省心的供配电系统,节省占地40%,全链效率提升至97.8%,成为智算建设的新标杆。

这些能力背后,是华为覆盖从硬件到云的全栈体系。通过计算产品与基础设施协同设计,每代产品均在华为云大规模验证,实现性能与能效双优。

在这个既澎湃又焦虑的时代,谁能在安全、弹性与绿色中取得平衡,谁就能在下一场智能浪潮中赢得先机。

相关推荐
一个向上的运维者3 小时前
AI重塑云计算与运维:从被动响应到智能自治的进化之路
运维·人工智能·云计算
我狸才不是赔钱货3 小时前
CUDA:通往大规模并行计算的桥梁
c++·人工智能·pytorch
MicroTech20253 小时前
MLGO微算法科技 LOP算法:实现多用户无线传感系统中边缘协同AI推理的智能优化路径
人工智能·科技·算法
AAIshangyanxiu3 小时前
【案例教程】从入门到精通-AI支持下的-ArcGIS数据处理、空间分析、可视化及多案例综合应用
人工智能·arcgis·遥感图像处理·arcgis土地利用
碧海银沙音频科技研究院4 小时前
i2s的LRCK时钟有毛刺以及BCLK数据在高采样率有变形数据解析错误问题原因以及解决方法
人工智能·深度学习·算法·分类·音视频
CAE虚拟与现实4 小时前
论文一篇:加权几何平均组合预测方法对数均方误差的分解
大数据·加权平均
IT_陈寒4 小时前
Redis性能翻倍的5个冷门优化技巧,90%的开发者都不知道第3个!
前端·人工智能·后端
Jc.MJ4 小时前
安装Pytorch GPU+CPU版本【通过本地安装解决无法使用pip指令下载问题】
人工智能·pytorch·pip
my1_1my4 小时前
深度学习中的两个不确定性
人工智能·深度学习