首家!AI算力最高评级!

近日,基于"百度百舸GPU云平台+昆仑芯P800"构建的国产万卡集群,以卓越表现,率先成为首家通过中国信息通信研究院《面向大规模智算服务集群的稳定运行能力要求》测评的国产万卡级别集群,且在基础设施、集群调度、模型训练保障等核心测评维度上,斩获最高等级"五星级"。这不仅是对百度智能云当前技术实力的权威认可,更标志着国产万卡集群在稳定性与成熟度上达到了全新高度,为产业智能化提供了坚实可靠的算力底座。

硬核底座:百舸+昆仑芯,打造"多快稳省"AI基础设施,让万卡集群持续稳跑

支撑超大规模智算集群的稳定高效运行,是全球科技企业面临的共同挑战。百度智能云基于"百度百舸GPU云平台+昆仑芯P800"构建的国产万卡集群通过最高等级测评,正是攻克这一难题的硬核答案。

昆仑芯P800是一款真正意义上为大模型而设计的芯片,它采用了完全由昆仑芯自研的XPU-P架构,显存远超同类芯片。而AI芯片非常敏感,随着集群规模扩展,故障率一定会快速增长,对于整个业务影响是指数级的。这就要求,在硬件之上,还必须有一层好的软件管理系统,保证集群的稳定运行。百度百舸GPU云平台,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供"多快稳省"的AI基础设施,在万卡集群的建设中发挥了至关重要的作用。在万卡任务上,百舸平台可以保障有效训练时长占比达到99.5%。在推理加速的极致优化上,百舸平台基于大规模PD分离式推理系统以及多专家并行机制,支撑千帆平台为40万客户提供服务。上线以来,千帆的推理吞吐提升了20倍,推理速度提升了50%以上。这一独特的技术优势也助力百度智能云成功突破头部科技企业及中腰部客户市场,推动GenAI IaaS业务实现跨越式增长。

智算未来:加快推动大模型产业化发展,释放更多场景价值

今年2月,百度智能云已成功点亮昆仑芯P800万卡集群,这也是国内首个正式点亮的自研万卡集群;4月,再一次成功点亮国内首个全自研的3万卡集群,可同时承载多个千亿参数大模型的全量训练,支持1000个客户同时做百亿参数的大模型精调。该集群建设了超大规模的高性能网络,能够保证大规模集群执行训练任务时的稳定性,创新性地设计了显著降低能耗的散热方案。大模型赋能产业是一场长期接力,百度会坚定投入,打造更先进、高效的人工智能基础设施,服务更多的中国企业,加快推动大模型产业化发展,释放更多场景价值。

未来一年,将是各种AI原生应用爆发的黄金时期。自研芯片和万卡集群的建成带来了强大的算力支持,同时有效提升用户的资源整体利用率,降低大模型训练成本,推动模型降本,将为产业的全面繁荣乃至整个行业的长远发展提供了新思路和新方向。

相关推荐
Wei&Yan21 分钟前
数据结构——顺序表(静/动态代码实现)
数据结构·c++·算法·visual studio code
团子的二进制世界1 小时前
G1垃圾收集器是如何工作的?
java·jvm·算法
吃杠碰小鸡1 小时前
高中数学-数列-导数证明
前端·数学·算法
故事不长丨1 小时前
C#线程同步:lock、Monitor、Mutex原理+用法+实战全解析
开发语言·算法·c#
long3161 小时前
Aho-Corasick 模式搜索算法
java·数据结构·spring boot·后端·算法·排序算法
近津薪荼1 小时前
dfs专题4——二叉树的深搜(验证二叉搜索树)
c++·学习·算法·深度优先
熊文豪1 小时前
探索CANN ops-nn:高性能哈希算子技术解读
算法·哈希算法·cann
熊猫_豆豆1 小时前
YOLOP车道检测
人工智能·python·算法
艾莉丝努力练剑2 小时前
【Linux:文件】Ext系列文件系统(初阶)
大数据·linux·运维·服务器·c++·人工智能·算法
偷吃的耗子2 小时前
【CNN算法理解】:CNN平移不变性详解:数学原理与实例
人工智能·算法·cnn