首家!AI算力最高评级!

近日,基于"百度百舸GPU云平台+昆仑芯P800"构建的国产万卡集群,以卓越表现,率先成为首家通过中国信息通信研究院《面向大规模智算服务集群的稳定运行能力要求》测评的国产万卡级别集群,且在基础设施、集群调度、模型训练保障等核心测评维度上,斩获最高等级"五星级"。这不仅是对百度智能云当前技术实力的权威认可,更标志着国产万卡集群在稳定性与成熟度上达到了全新高度,为产业智能化提供了坚实可靠的算力底座。

硬核底座:百舸+昆仑芯,打造"多快稳省"AI基础设施,让万卡集群持续稳跑

支撑超大规模智算集群的稳定高效运行,是全球科技企业面临的共同挑战。百度智能云基于"百度百舸GPU云平台+昆仑芯P800"构建的国产万卡集群通过最高等级测评,正是攻克这一难题的硬核答案。

昆仑芯P800是一款真正意义上为大模型而设计的芯片,它采用了完全由昆仑芯自研的XPU-P架构,显存远超同类芯片。而AI芯片非常敏感,随着集群规模扩展,故障率一定会快速增长,对于整个业务影响是指数级的。这就要求,在硬件之上,还必须有一层好的软件管理系统,保证集群的稳定运行。百度百舸GPU云平台,围绕落地大模型全旅程的算力需求,在集群创建、开发实验、模型训练、模型推理四大方面,能为企业提供"多快稳省"的AI基础设施,在万卡集群的建设中发挥了至关重要的作用。在万卡任务上,百舸平台可以保障有效训练时长占比达到99.5%。在推理加速的极致优化上,百舸平台基于大规模PD分离式推理系统以及多专家并行机制,支撑千帆平台为40万客户提供服务。上线以来,千帆的推理吞吐提升了20倍,推理速度提升了50%以上。这一独特的技术优势也助力百度智能云成功突破头部科技企业及中腰部客户市场,推动GenAI IaaS业务实现跨越式增长。

智算未来:加快推动大模型产业化发展,释放更多场景价值

今年2月,百度智能云已成功点亮昆仑芯P800万卡集群,这也是国内首个正式点亮的自研万卡集群;4月,再一次成功点亮国内首个全自研的3万卡集群,可同时承载多个千亿参数大模型的全量训练,支持1000个客户同时做百亿参数的大模型精调。该集群建设了超大规模的高性能网络,能够保证大规模集群执行训练任务时的稳定性,创新性地设计了显著降低能耗的散热方案。大模型赋能产业是一场长期接力,百度会坚定投入,打造更先进、高效的人工智能基础设施,服务更多的中国企业,加快推动大模型产业化发展,释放更多场景价值。

未来一年,将是各种AI原生应用爆发的黄金时期。自研芯片和万卡集群的建成带来了强大的算力支持,同时有效提升用户的资源整体利用率,降低大模型训练成本,推动模型降本,将为产业的全面繁荣乃至整个行业的长远发展提供了新思路和新方向。

相关推荐
2401_8414956417 小时前
【数据结构】红黑树的基本操作
java·数据结构·c++·python·算法·红黑树·二叉搜索树
西猫雷婶17 小时前
random.shuffle()函数随机打乱数据
开发语言·pytorch·python·学习·算法·线性回归·numpy
小李独爱秋17 小时前
机器学习中的聚类理论与K-means算法详解
人工智能·算法·机器学习·支持向量机·kmeans·聚类
小欣加油19 小时前
leetcode 1863 找出所有子集的异或总和再求和
c++·算法·leetcode·职场和发展·深度优先
十八岁讨厌编程19 小时前
【算法训练营Day27】动态规划part3
算法·动态规划
炬火初现20 小时前
Hot100-哈希,双指针
算法·哈希算法·散列表
weixin_3077791321 小时前
利用复变函数方法计算常见函数的傅里叶变换
算法
共享家95271 天前
LeetCode热题100(1-7)
算法·leetcode·职场和发展
新学笺1 天前
数据结构与算法 —— Java单链表从“0”到“1”
算法
同元软控1 天前
首批CCF教学案例大赛资源上线:涵盖控制仿真、算法与机器人等9大方向
算法·机器人·工业软件·mworks