中科曙光scaleX国产万卡级AI集群系统

2025年12月18日,在江苏昆山举行的光合组织 2025 人工智能创新大会(HAIC2025)上,中科曙光发布并展出了大规模智能计算系统 ------ scaleX 万卡超集群,这也是国产万卡级 AI 集群系统首次以真机形式亮相。

该万卡超集群系统由多个scaleX640超节点组成,总算力达5EFlops,HBM总容量>650TB。 其主要面向万亿参数大模型&科学智能场景。

中科曙光高级副总裁李斌介绍,scaleX 万卡超集群是曙光发挥大型计算机系统研制经验优势,面向万亿参数大模型、科学智能等复杂任务场景打造的大规模智能算力基础设施方案。

面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求,scaleX 万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破,部分技术与能力已超越海外同类产品研发路线图的 2027 年 NVL576 里程节点

scaleX 万卡超集群的核心技术优势如下:

  • 优势 1:全球首创单机柜级 640 卡超节点。scaleX 万卡超集群由 16 个曙光 scaleX640 超节点通过 scaleFabric 高速网络互连而成,可实现 10240 块 AI 加速卡部署,总算力规模超 5EFlops。作为世界首个单机柜级 640 卡超节点,scaleX640 采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升 20 倍,PUE 值低至 1.04。
  • 优势 2:自主研发原生 RDMA 高速网络。曙光 scaleFabric 网络,基于国内首款 400G 类 InfiniBand 的原生 RDMA 网卡与交换芯片,可实现 400Gb/s 超高带宽、低于 1 微秒端侧通信延迟,超节点间的通信性能达到业内领先水平,充分释放万卡超集群算力,并可将超集群规模轻松扩展至 10 万卡以上,相比传统 IB 网络提升 2.33 倍,同时网络总体成本降低 30%。
  • 优势 3:存、算、传紧耦合深度优化。通过"超级隧道"、AI 数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写带宽极致需求挑战,提升高通量 AI 推理时的响应速度与结果精准度,并可将 AI 加速卡资源利用率提高 55%。
  • 优势 4:超集群数字孪生与智能调度。通过物理集群数字孪生,实现故障定位、修复等全流程可视化智能管理;智能化运维平台可支撑集群长期可用性达 99.99%;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。

scaleX 万卡超集群可支持多品牌加速卡以及主流计算生态,并实现 400+ 主流大模型、世界模型等适配优化。在实际应用中,该超集群可覆盖大模型训练、金融风控、地质能源勘探及科学智能等多元场景。

"AI计算开放架构"由中科曙光协同20多家AI产业链企业共同推出,以共享若干关键共性技术能力,依托系统工程思维推进智算集群创新。通过scaleX万卡超集群,AI企业可降低智算集群研发门槛。

相关推荐
GJGCY9 小时前
中小企业财务AI工具技术评测:四大类别架构差异与选型维度
大数据·人工智能·ai·架构·财务·智能体
weixin_Todd_Wong20109 小时前
基于宠物行为识别在宠物医疗健康领域的应用
人工智能·宠物
luolai10 小时前
SpringAI调用本地RAG 启动报错 chromaDB 报错
人工智能
飞Link10 小时前
具身智能核心架构之 Python 行为树 (py_trees) 深度剖析与实战
开发语言·人工智能·python·架构
IT_陈寒10 小时前
JavaScript开发者必看:5个让你的代码性能翻倍的隐藏技巧
前端·人工智能·后端
九河云10 小时前
云上安全运营中心(SOC)建设:从被动防御到主动狩猎
大数据·人工智能·安全·架构·数字化转型
快乐非自愿10 小时前
OpenClaw 技术解析与 2026 稳定版工程化部署实践
人工智能·openclaw
前沿AI10 小时前
一场大赛,一个平台:遂宁跑出“人工智能+政务”应用加速度
人工智能·政务
余衫马10 小时前
Agent Skills 实战(.NET):理论 × 代码 × 企业案例
人工智能·.net·agent·skill·openclaw
jinanwuhuaguo10 小时前
OpenClaw、飞书、Claude Code、Codex:四维AI生态体系的深度解构与颗粒化对比分析
大数据·人工智能·学习·飞书·openclaw