这篇文章最初发表在 NVIDIA 技术博客上。
在当今的数据中心,通过连接到网络的服务器实现系统冗余的方法有很多。客户通常会寻求冗余来提高服务可用性(例如实现端到端 AI 工作负载),并使用不同的多归技术来提高系统效率。
在本文中,我们将讨论知名的专有多机箱链路聚合组 (MLAG) 与基于标准的 EVPN 多归站 (EVPN-MH) 相比的优缺点。
MLAG 简介
对于所有现代数据中心而言,多归位都是必要的,这使得单个主机能够连接到两个或多个节点,并以全主动或单主动的方式提供服务。全主动侧重于首先增加容量,其次是冗余。单主动主要侧重于冗余。
在互联网服务提供商领域,多域名 (Multihoming) 是一个常见的概念,主要用于接入点位置,即客户设备与提供商边缘设备位置互连。
此连接几乎始终是第 3 层路由连接,不会带来第 2 层世界的挑战,因为它旨在解决冗余站点访问或互联网访问。但是,在数据中心,当我们以冗余方式将服务器或终端节点连接到网络时,我们必须深入到第 2 层。
MLAG 出现于 2010 年代早期,许多供应商实施了类似的功能。需要记住的一点是,MLAG 是依赖于供应商的专有技术。根据维基百科,MLAG's "实施情况因供应商而异;值得注意的是,机箱之间的现有协议是专有的。" 这是一个基本问题,MLAG 会触发许多其他问题。
图 1.典型的 MLAG 布线
借助 MLAG (图 1),客户端设备可以是服务器或 hypervisor,交换机或路由器形成经典链路聚合组 (LAG),通常将两个物理链路绑定到单个逻辑链路中。在这些链路的另一侧,您通常有两个交换机,这些链路将其连接到。从 LACP 的角度来看,这两个交换机的作用就像具有相同 LACP 系统 ID 的单个交换机。这使得 MLAG 从服务器的角度来看工作。
但是,对于两个参与 MLAG 的交换机而言,事情要复杂得多。因为它们需要它们之间的状态和 MAC 同步,因此还需要进行心跳,以防止在其中一个参与的交换机失去其上行链路的情况下发生脑裂和流量流经对等链路。这种对等链路使整个设计不标准、复杂且容易出错(不适合 CLOS Leaf 和 Spine 架构)。
目前,我们正在努力制定状态和 MAC 同步标准。RFC7275 专注于解决此问题,并引入了一个名为"机箱间控制协议 (ICCP)"的新协议。然而,不同的供应商仍然实施各种不同的 RFC7275 解决方案,最终会遇到相同的问题。这种 MLAG 解决方案在有限的范围内解决了多归问题。
虽然 MLAG 的前景暗淡,但有一种更灵活、技术更出色的多归系统解决方案:EVPN 多归系统(也称为 EVPN-LAG 或 ESI-LAG)。
EVPN 多归属的优势
ISP 领域并不陌生,最初是作为一种 WAN 技术出现的。但是,很显然,现代数据中心需要自己的方式来实现多主。
恰巧,EVPN 本身最初是作为一种 WAN 技术引入的,然后演变为数据中心技术。EVPN 采用多归位功能的速度相当快。随着 RFC7432, EVPN-MH 使用名为以太网段标识符 (ESI) 的新寻址字段。这种使 EVPN -- MH 正常工作的基本构建块在整个网络中随处使用,只要传播 1 型和 4 型路由即可。ESI 是一个 10 字节的字段,用于指定特定的多住址段。
我们来谈谈 EVPN-MH 的特点、路线类型,以及与传统和专有的 MLAG 相比,是什么让它更具吸引力。
EVPN-MH 使用边界网关协议 (BGP) 作为控制平面,而 MLAG 使用 ICCP.此外,EVPN -- MH 根据 RFC7432 使用几种不同类型的 EVPN 路由类型。
EVPN Type-1 路由
EVPN Type-1 路由功能可列为批量提取、混叠和负载共享(图 2)。
大规模退出
大规模提取可确保,如果 ES 上的特定链路发生故障,您可以提取连接到该特定链路的所有依赖 MAC 地址。这样,您可以通过发送大规模提取而不是针对每个 MAC 逐个提取来实现快速收。这假设 hypervisor 通过多个 VM、相同的 VLAN 或数百个 VLAN 连接到该 ES.
混叠和负载均衡
混叠和负载均衡可确保 ES 成员交换机(也称为 EVI)之间的下游流量负载均衡。这样,ES 成员交换机可以以负载共享的方式接收来自网络中其他交换机的流量,而不管他们是否在 ES 后面发布特定 MAC.
图 2.EVPN 以太网自动发现路由 Type-1 帧格式
EVPN Type-2 路由
Type-2 (MAC/IP) 路由由相同的 ES 成员 leaf 公告,并且包含连接到此以太网段的每个 MAC 的 ESI 值(图 3)。
图 3.EVPN MAC/IP 广告路由类型 2 帧格式
Type-2 路由不是 EVPN-MH 设置的一部分,但是,当 ESI 信息存在于特定目标 MAC 时,它们会使用 ESI 信息。
EVPN 路由类型 4
EVPN Type-4 路由用于选择指定转发器 (DF) 和多节点 ES 的自动发现(图 4)。
图 4.EVPN 以太网段路由类型 -- 4 帧格式
EVPN Type-1 和 Type-4 路由使 EVPN-MH 能够正常工作,并提供基于标准的互操作性。Type -- 4 路由仅由参与该特定 ES 的路由器或 leaf 导入。不参与该 ES 的其他路由器或网络中的 leaf 不会导入 type -- 4 路由。Type -- 4 路由用于 DF 选择,以选择本地 BUM 流量的发送位置。由于 BUM 流量必须在整个网络中被洪水淹没,因此在多住址场景中,只有 DF 负责将 BUM 流量发送到其客户端(例如多住址服务器)。
典型的 EVPN-MH 拓扑结构如图 5 所示。
图 5.典型的 EVPN-MH 布线
EVPN-MH 的优势:
- 基于控制面板的 MAC 和状态同步
- 基于标准的 BGP EVPN 路由类型和互操作性
- 多基元连接的全网络路由分布
- 快速收、提取
- 支持 2 个以上的多归点
- 无需物理对等链路连接
- 未来验证
- 通过 BGP 实现扩展
结束语
EVPN-MH 是一项面向未来的技术,使用 BGP 作为其控制平面。其基于标准的架构、能够通过两个以上网关为终端主机提供多归站以及主动 -- 主动负载均衡,使其成为现代数据中心网络中一个有吸引力的事实解决方案。此外,消除了对 Leaf 之间对等链路的需求,使 EVPN -- MH 非常适合 Clos 架构,从而降低成本和复杂性。
我建议将 EVPN-MH 用作数据中心的控制平面,这将很快取代现场的所有 MLAG 部署。现有网络可以保留 MLAG,因为它们已经投入使用。但是,新的部署和设计当然应该基于 EVPN -- MH.
有关更多资源,请查看 NVIDIA Cumulus Linux 多机箱链路聚合 -- MLAG 配置指南。