华为Atlas 900 A3 SuperPoD 超节点网络架构

Atlas 900 A3 SuperPoD 超节点网络架构详细分析

📚 目录

  1. 架构概述
  2. 核心概念解释
  3. 分层架构详解
  4. 384超节点组网方案
  5. 网络连接详解
  6. 数据流向分析
  7. 与配置管理的关系

🎯 一句话理解

Atlas 900 A3 = 384个AI计算节点 + 华为自研高速网络 + 7层并行通信


详细细节见官网https://support.huawei.com/enterprise/zh/ascend-computing/atlas-900-a3-superpod-pid-261207247?category=operation-maintenance\&subcategory=user-guide

📊 架构简化图

复制代码
┌─────────────────────────────────────────┐
│    L2层:56台总线设备(高速公路收费站)    │
│    负责:节点之间的通信                    │
└─────────────────────────────────────────┘
              ↕ 光纤/铜缆
┌─────────────────────────────────────────┐
│      超节点总线(城市主干道)              │
│      负责:汇聚和转发                      │
└─────────────────────────────────────────┘
              ↕
┌─────────────────────────────────────────┐
│  L1层:48个计算节点(48栋大楼)            │
│  ┌──────────┐      ┌──────────┐        │
│  │ 节点1     │      │ 节点48   │        │
│  │ ┌──────┐ │      │ ┌──────┐ │        │
│  │ │L1交换│ │      │ │L1交换│ │        │
│  │ │7个芯片│ │      │ │7个芯片│ │        │
│  │ └──────┘ │      │ └──────┘ │        │
│  │ CPU CPU  │      │ CPU CPU  │        │
│  │ NPU×8    │      │ NPU×8    │        │
│  └──────────┘      └──────────┘        │
└─────────────────────────────────────────┘

架构概述

什么是Atlas 900 A3 SuperPoD?

Atlas 900 A3 SuperPoD 是华为推出的AI训练集群解决方案,可以理解为:

  • 超级计算机集群:由多个计算节点组成的大型AI训练系统
  • 高性能网络:使用华为自研的灵衢网络实现超低延迟通信
  • 可扩展架构:支持64/96/192/384超节点等多种配置

为什么需要这种复杂架构?

在AI训练中,需要:

  1. 大量计算节点:384个节点同时工作
  2. 高速通信:节点之间需要频繁交换数据(模型参数、梯度等)
  3. 低延迟:延迟越低,训练速度越快
  4. 大带宽:需要足够的带宽传输大量数据

类比理解

  • 就像384个工人同时建造一栋大楼
  • 工人之间需要频繁沟通和传递材料
  • 沟通越快、通道越宽,建造速度越快

核心概念解释

1. 灵衢网络(LingQu Network)

什么是灵衢网络?

  • 华为自研的高速互联网络技术
  • 专门为AI训练集群设计
  • 提供超低延迟、高带宽的通信能力

类比

  • 普通网络 = 普通公路(有红绿灯、限速)
  • 灵衢网络 = 高速公路(专用通道、无红绿灯、高速通行)

2. LQC协议(灵衢总线协议)

什么是LQC?

  • LQC = LingQu Cache-coherent(灵衢缓存一致性)
  • 是一种处理器内部总线的向外延伸
  • 支持多个芯片的紧耦合、极致低时延互联

关键特点

  • 缓存一致性:多个芯片可以共享内存,就像它们在一个芯片内部一样
  • 低延迟:延迟极低,接近芯片内部通信
  • 高带宽:支持大容量数据传输

类比理解

  • 普通网络 = 两个房间的人通过电话沟通(有延迟)
  • LQC协议 = 两个人在同一个房间面对面沟通(几乎无延迟)

3. 平面组网(Plane Networking)

什么是平面?

  • 将网络分成7个独立的通信平面
  • 每个平面可以独立工作
  • 7个平面并行工作,获得更大带宽

为什么是7个平面?

  • 带宽叠加:7个平面 = 7倍带宽
  • 冗余容错:一个平面故障,其他平面仍可工作
  • 负载均衡:数据可以分散到不同平面传输

类比理解

  • 单平面 = 一条车道
  • 7平面 = 7条并行车道
  • 7条车道同时通车,总通行能力是单条车道的7倍

4. L1层和L2层

L1层(第一层交换)
  • 位置:在每个计算节点内部
  • 作用:节点内部的CPU、NPU之间的通信
  • 设备:灵衢总线板(集成在计算节点内)

类比

  • L1层 = 大楼内部的电梯和走廊(节点内部通信)
L2层(第二层交换)
  • 位置:总线设备柜中(独立机柜)
  • 作用:不同计算节点之间的通信
  • 设备:灵衢总线设备(LingQu 630 V1交换机)

类比

  • L2层 = 城市之间的高速公路(节点间通信)
超节点总线(Super Node Bus)
  • 位置:连接L1和L2的中间层
  • 作用:汇聚L1的流量,转发到L2

类比

  • 超节点总线 = 城市的主干道(连接内部道路和高速公路)

分层架构详解

整体架构图(从下往上)

复制代码
┌─────────────────────────────────────────────────┐
│           L2层:灵衢总线设备(56台)              │
│     ┌──────────┐  ┌──────────┐  ┌──────────┐   │
│     │ 总线设备1 │  │ 总线设备2 │  │ ...设备56│   │
│     │ 交换芯片a │  │ 交换芯片a │  │          │   │
│     │ 交换芯片b │  │ 交换芯片b │  │          │   │
│     │ 平面1.1  │  │ 平面1.2  │  │ 平面7.8  │   │
│     └──────────┘  └──────────┘  └──────────┘   │
└─────────────────────────────────────────────────┘
                    ↕ 光纤/铜缆
┌─────────────────────────────────────────────────┐
│           超节点总线(Super Node Bus)             │
│          (汇聚和转发层)                          │
└─────────────────────────────────────────────────┘
                    ↕
┌─────────────────────────────────────────────────┐
│         L1层:计算节点内部交换(48个节点)          │
│  ┌──────────────┐        ┌──────────────┐       │
│  │  计算节点1   │        │  计算节点48  │       │
│  │ ┌──────────┐│        │ ┌──────────┐│       │
│  │ │L1交换层  ││        │ │L1交换层  ││       │
│  │ │交换芯片1 ││        │ │交换芯片1 ││       │
│  │ │交换芯片2 ││        │ │交换芯片2 ││       │
│  │ │  ...     ││        │ │  ...     ││       │
│  │ │交换芯片7 ││        │ │交换芯片7 ││       │
│  │ └──────────┘│        │ └──────────┘│       │
│  │              │        │              │       │
│  │  CPU  CPU    │        │  CPU  CPU    │       │
│  │              │        │              │       │
│  │ NPU NPU ...  │        │ NPU NPU ...  │       │
│  │ (8个NPU)     │        │ (8个NPU)     │       │
│  │              │        │              │       │
│  │ RoCE交换机   │        │ RoCE交换机   │       │
│  └──────────────┘        └──────────────┘       │
└─────────────────────────────────────────────────┘

L2层详细结构

灵衢总线设备(LingQu 630 V1)
  • 数量:56台(384超节点配置)
  • 每台设备包含
    • 2个交换芯片(交换芯片_a 和 交换芯片_b)
    • 对应2个平面(如平面1.1和平面1.2)
  • 总平面数:56台 × 2 = 112个平面接口
  • 实际使用:7个平面组网(每个平面使用多个接口)

平面分配示例

复制代码
总线设备1  → 平面1.1, 平面1.2
总线设备2  → 平面1.3, 平面1.4
...
总线设备8  → 平面2.1, 平面2.2
...
总线设备56 → 平面7.7, 平面7.8

为什么是56台?

  • 384超节点需要足够的交换容量
  • 56台设备提供足够的端口和带宽
  • 支持全互联组网(每个节点都能直接通信)

L1层详细结构

每个计算节点的L1交换层
  • 交换芯片数量:7个(交换芯片1到交换芯片7)
  • 对应关系:每个交换芯片对应L2层的一个平面
  • 连接方式
    • 向上:连接到超节点总线(8×56G LQC)
    • 向下:连接到CPU和NPU(8×30G LQC 和 8×56G LQC)

L1交换芯片的作用

  1. 汇聚流量:将CPU和NPU的流量汇聚
  2. 路由转发:根据目标地址转发到正确的L2平面
  3. 负载均衡:将流量分散到7个平面

计算节点内部结构

CPU连接
  • 连接方式:通过8×30G LQC连接到L1交换芯片
  • 每个CPU:连接到多个L1交换芯片(实现冗余和负载均衡)
  • 作用:执行AI训练的控制逻辑、数据预处理等
NPU连接
  • 数量:每个节点8个NPU
  • 连接方式1 :通过8×56G LQC连接到L1交换芯片
    • 用于计算面通信(模型参数、梯度同步)
  • 连接方式2 :通过8×50G RoCE连接到RoCE交换机
    • 用于参数面通信(参数服务器通信)

为什么NPU需要两种连接?

  • LQC连接:超低延迟,用于紧耦合的同步通信
  • RoCE连接:标准以太网,用于参数服务器等场景
RoCE交换机
  • 位置:每个计算节点内部
  • 作用:提供标准的以太网通信能力
  • 连接:连接到8个NPU(8×50G RoCE)

384超节点组网方案

物理架构

复制代码
┌─────────────────────────────────────────────────────┐
│           总线设备柜(1套)                            │
│  ┌────┐ ┌────┐ ┌────┐  ...  ┌────┐                 │
│  │设备1│ │设备2│ │设备3│      │设备56│                │
│  └────┘ └────┘ └────┘       └────┘                 │
│    ↕      ↕      ↕            ↕                    │
│   光纤/铜缆连接(全互联)                              │
│    ↕      ↕      ↕            ↕                    │
│  ┌────┐ ┌────┐ ┌────┐  ...  ┌────┐                 │
│  │节点1│ │节点2│ │节点3│      │节点48│                │
│  └────┘ └────┘ └────┘       └────┘                 │
│           计算柜(多套)                              │
└─────────────────────────────────────────────────────┘

关键数字

组件 数量 说明
总线设备 56台 L2层交换设备
计算节点 48台 实际部署数量(物理384,实际48)
L1交换芯片 48×7=336个 每个节点7个
NPU总数 48×8=384个 每个节点8个NPU
平面数 7个 并行通信平面
总带宽 7×单平面带宽 7个平面叠加

全互联组网

什么是全互联?

  • 每个计算节点都能直接与其他所有节点通信
  • 不需要经过多个跳转(hop)
  • 延迟最低,带宽最大

实现方式

  • 通过56台总线设备提供足够的交换容量
  • 每个节点通过L1交换层连接到所有L2平面
  • 7个平面并行工作,提供冗余和负载均衡

类比

  • 非全互联:A到B需要经过C(2跳)
  • 全互联:A直接到B(1跳)

网络连接详解

连接类型和带宽

1. CPU到L1交换芯片
  • 类型:8×30G LQC
  • 总带宽:8 × 30G = 240Gbps
  • 用途:CPU与节点内部其他组件通信
  • 特点:低延迟、缓存一致性
2. L2到超节点总线
  • 类型:8×56G LQC
  • 总带宽:8 × 56G = 448Gbps
  • 用途:L2层设备之间的通信
  • 特点:高带宽、低延迟
3. 超节点总线到L1交换芯片
  • 类型:8×56G LQC
  • 总带宽:8 × 56G = 448Gbps
  • 用途:L2层到L1层的通信
  • 特点:连接L1和L2的关键链路
4. NPU到L1交换芯片
  • 类型:8×56G LQC
  • 总带宽:8 × 56G = 448Gbps
  • 用途:NPU的计算面通信(参数同步、梯度同步)
  • 特点:超低延迟,用于AI训练的核心通信
5. NPU到RoCE交换机
  • 类型:8×50G RoCE
  • 总带宽:8 × 50G = 400Gbps
  • 用途:NPU的参数面通信(参数服务器)
  • 特点:标准以太网,兼容性好

连接拓扑

复制代码
计算节点内部:
┌─────────────────────────────────────┐
│  CPU ──8×30G LQC──> L1交换芯片1      │
│  CPU ──8×30G LQC──> L1交换芯片2      │
│  ...                                 │
│  CPU ──8×30G LQC──> L1交换芯片7      │
│                                      │
│  NPU ──8×56G LQC──> L1交换芯片1      │
│  NPU ──8×56G LQC──> L1交换芯片2      │
│  ...                                 │
│  NPU ──8×56G LQC──> L1交换芯片7      │
│                                      │
│  NPU ──8×50G RoCE──> RoCE交换机      │
└─────────────────────────────────────┘
         ↕ 8×56G LQC
┌─────────────────────────────────────┐
│        超节点总线                    │
└─────────────────────────────────────┘
         ↕ 8×56G LQC
┌─────────────────────────────────────┐
│      L2层:灵衢总线设备               │
└─────────────────────────────────────┘

数据流向分析

场景1:NPU到NPU通信(同节点)

复制代码
NPU1 → L1交换芯片 → NPU2
(节点内部,最快)

特点

  • 延迟最低(微秒级)
  • 带宽最高
  • 用于节点内部的数据交换

场景2:NPU到NPU通信(跨节点)

复制代码
节点1的NPU → L1交换 → 超节点总线 → L2交换 → 
超节点总线 → 节点2的L1交换 → 节点2的NPU

特点

  • 延迟低(纳秒到微秒级)
  • 通过7个平面并行传输
  • 用于跨节点的参数同步

场景3:参数服务器通信

复制代码
NPU → RoCE交换机 → 以太网 → 参数服务器

特点

  • 使用标准以太网协议
  • 兼容性好
  • 用于参数服务器的集中式通信

数据流优化

负载均衡

  • 数据自动分散到7个平面
  • 避免单个平面过载
  • 最大化利用带宽

路径选择

  • L1交换芯片根据目标地址选择最佳路径
  • 优先选择负载较低的平面
  • 实现最短路径转发

与配置管理的关系

为什么需要配置管理?

在这个复杂架构中,每个组件都需要配置:

1. L2层配置
  • 总线设备配置 :56台设备,每台需要配置
    • 交换芯片参数
    • 平面分配
    • 路由表
    • QoS策略
2. L1层配置
  • L1交换芯片配置 :48节点 × 7芯片 = 336个芯片
    • 端口配置
    • 路由规则
    • 带宽限制
3. 计算节点配置
  • CPU配置:每个节点的CPU参数
  • NPU配置 :384个NPU,每个需要配置
    • 驱动版本
    • 工作模式
    • 通信参数
4. 网络配置
  • IP地址分配:每个节点、每个接口
  • 路由配置:跨节点通信路由
  • VLAN配置:网络隔离

配置管理挑战

挑战1:配置数量庞大
  • 384超节点 = 大量配置项
  • 手动配置不现实
  • 需要自动化配置管理
挑战2:配置差异化
  • 不同节点可能有不同配置
  • L1和L2层配置不同
  • 需要节点级配置管理
挑战3:配置变更频繁
  • 网络优化需要调整配置
  • 故障恢复需要更新配置
  • 需要支持配置热加载

配置管理方案

这正是我们之前设计的配置文件管理方案要解决的问题:

  1. 统一管理平台:在运维平台统一管理所有配置
  2. 节点识别:通过集群名、节点名自动识别
  3. 分层配置
    • 全局配置(所有节点共享)
    • 集群配置(L2层、L1层)
    • 节点配置(具体节点参数)
  4. 自动化部署:节点启动自动获取配置
  5. 配置热加载:配置变更无需重启

总结

架构特点

  1. 分层设计:L1(节点内)+ L2(节点间)+ 超节点总线
  2. 全互联:每个节点都能直接通信
  3. 多平面:7个平面并行,提供冗余和负载均衡
  4. 高带宽:LQC协议提供超低延迟、高带宽
  5. 可扩展:支持64/96/192/384超节点

关键优势

  1. 超低延迟:LQC协议实现接近芯片内部的通信延迟
  2. 高带宽:7个平面叠加,总带宽巨大
  3. 高可靠性:多平面冗余,单点故障不影响整体
  4. 灵活扩展:支持多种规模配置

配置管理需求

  1. 自动化:大量配置需要自动化管理
  2. 差异化:不同层级、不同节点需要不同配置
  3. 动态更新:支持配置热加载,无需重启
  4. 统一平台:在运维平台统一管理

附录:术语表

术语 英文 说明
灵衢网络 LingQu Network 华为自研的高速互联网络
LQC协议 LingQu Cache-coherent 灵衢缓存一致性协议
超节点 SuperPod 大规模AI训练集群
计算节点 Compute Node 包含CPU和NPU的计算单元
总线设备 Bus Device L2层交换设备
平面 Plane 独立的通信平面
RoCE RDMA over Converged Ethernet 基于以太网的RDMA协议
全互联 Full Mesh 所有节点直接相连的拓扑

相关推荐
试着2 小时前
【huawei】机试
华为·面试·机试·手搓代码
江畔何人初2 小时前
service发现
linux·运维·云原生
Facechat2 小时前
鸿蒙开发入坑篇(九):本地数据库 (RDB) 深度解析
数据库·华为·harmonyos
vx-bot5556662 小时前
企业微信接口在混合云环境下的集成架构与网络互联方案企业微信接口在混合云环境下的集成架构与网络互联方案
网络·架构·企业微信
life码农2 小时前
Linux系统清空文件内容的几种方法
linux·运维·chrome
蒸蒸yyyyzwd2 小时前
c网络编程学习笔记
c语言·网络·学习
zbguolei2 小时前
虚拟机安装Ubuntu后无法登录
linux·运维·ubuntu
UP_Continue2 小时前
Linux--基础IO
linux·运维·服务器
阿钱真强道2 小时前
08 鸿蒙对接-jetlinks-official-protocol-不使用md5-不加时间戳
华为·harmonyos