EVPN(Ethernet Virtual Private Network)是下一代全业务承载的VPN解决方案。EVPN统一了各种VPN业务的控制面,利用BGP扩展协议来传递二层或三层的可达性信息,实现了转发面和控制面的分离。
EVPN解决传统L2VPN的无法实现负载分担、网络资源的消耗较高等不足,同时也可以对L3VPN业务进行承载,降低了协议的复杂程度。EVPN还将IP VPN流量均衡和部署灵活的优势引入到了以太网中。种种优势使其广泛应用于大型数据中心二层网络互连场景。
起源与发展
最初的VXLAN方案(RFC7348)中没有定义控制平面,VXLAN隧道需要手工配置,然后通过流量泛洪的方式进行主机地址的学习。这种方式实现上较为简单,但是会导致网络中存在很多泛洪流量、网络扩展困难。
为了解决上述问题,人们在VXLAN中引入了EVPN作为VXLAN的控制平面。
EVPN是一种用于二层网络互联的VPN技术,它颠覆了传统二层VPN通过转发面来学习MAC地址的机制,引入了控制面,利用BGP扩展协议来传递MAC信息,有望取代其他 L2VPN 传输方法,例如基于 BGP 的 L2VPN (RFC6624)、基于 LDP 的 L2VPN (RFC4906) 和 VPLS。
了解 EVPN
EVPN可通过 IP 或 IP/MPLS 骨干网在不同的二层域之间提供虚拟多点桥接连接。与 IP VPN 和VPLS(虚拟专用 LAN 服务 ) 等其他 VPN 技术一样,EVPN 在PE (提供商边缘) 路由器上配置实例,以确保客户之间的逻辑业务分离。
PE 路由器用于连接到CE (客户边缘) 设备,这些设备可以是路由器、交换机或主机。然后,PE 路由器使用MP-BGP (多协议 BGP)交换可达性信息,并在 PE 路由器之间转发封装的流量。由于该架构的元素与其他VPN技术是通用的,因此EVPN可以无缝引入并集成到现有的业务环境中,如下所示:
EVPN 可用作二层 Overlay 解决方案,以便在裸机服务器等终端站需要二层连接时,通过 IP 底层为虚拟网络中的端点提供二层连接。
EVPN 的 MP-BGP 控制平面能够动态地将实时虚拟机从一个数据中心迁移到另一个数据中心,称为VM(虚拟机) 迁移。将 VM 移动到目标服务器或管理程序后,它会发送一个免费 ARP,更新目标数据中心 PE 设备的二层转发表。然后,PE 设备将 MAC 路由更新发送到所有远程 PE 设备,这些设备依次更新它们的转发表。
EVPN 的优势
简化配置:通过MP-BGP实现VTEP自动发现、VXLAN隧道自动建立、VXLAN隧道与VXLAN自动关联,无需用户手工配置,降低网络部署难度。
分离控制平面与数据平面:控制平面负责发布路由信息,数据平面负责转发报文,分工明确,易于管理。
支持多归属:当同一个站点通过多台VTEP接入VXLAN网络时,连接该站点的多条路径均可以进行流量转发,以提高网络带宽利用率。
支持对称IRB(Integrated Bridging and Routing,集成的桥接和路由):MP-BGP同时发布二层MAC地址和三层路由信息,VTEP既可以进行二层转发,也可以进行三层路由。
什么是 BGP EVPN
BGP(特别是MP-BGP)从早期开始就是 EVPN 控制平面的选择。BGP EVPN 的基本思想如下所示,以太网网络通过中间 IP 网络连接,标记为 IP 底层。PE路由器实施 BGP EVPN 协议并通过 IP 网络相互对等。
EVPN NLRI定义了五种EVPN路由类型来解决不同的用例。其中Type1~Type4是在 RFC7432中定义的,Type5是在后来的草案中定义的。
Type1:Ethernet auto-discovery (AD) route,用来在站点多归属组网中通告ES信息,以便实现水平分割、Aliasing和主备备份等特性。
Type2:MAC/IP advertisement route,用来通告MAC/IP地址信息。
Type3:Inclusive multicast Ethernet tag route,用来通告VTEP及其所属VXLAN,以实现VTEP自动发现、自动建立VXLAN隧道、自动创建VXLAN广播表等。
Type4:Ethernet segment route,用来通告ES及其连接的VTEP信息,以便发现连接同一ES的VTEP冗余组其他成员,以及在冗余组之间选举指定转发器DF等。
Type5:IP prefix route,IP前缀路由,用来以IP前缀的形式通告引入的外部路由。
BGP 在实现 EVPN 扩展需求方面发挥了一些关键作用:
1)从数据平面中删除 MAC 地址学习。在标准以太网网络中,MAC 地址是通过交换机在传输时观察帧(数据包)来学习的。每当交换机遇到未知的目标 MAC 地址时,它就会泛洪帧,即将其复制到所有可能的目标。这种类型的未知单播帧泛洪可能导致流量拥塞,可能包括广播风暴,并且扩展性非常差。
2)减少广播和多播流量负载。与未知的单播泛洪类似,广播和多播流量会在网络上造成沉重的流量负载,并有可能因广播风暴而中断。BGP EVPN 可以通过有选择地转发此类流量来减少这些问题。
3)跨底层 IP 网络实现最佳转发、负载平衡和收敛。
BGP EVPN 如何作为 VXLAN 的控制平面
在采用BGP EVPN部署分布式VXLAN网关的场景下,控制平面负责VXLAN隧道建立和动态MAC地址学习,转发平面负责子网内已知单播报文转发、子网内BUM报文转发和子网间的数据包转发。BGP EVPN提供多种功能,包括主机IP路由通告、主机MAC地址通告、主机ARP通告和ARP广播抑制。如果分布式网关部署在VXLAN网络中,推荐使用BGP EVPN。
以下内容以具有IPv4 Underlay和Overlay网络的VXLAN网络为例,描述BGP EVPN如何作为VXLAN的控制平面工作。
子网内 VXLAN 隧道建立
VXLAN隧道由一对VTEP(VXLAN隧道端点)决定。在子网内通信场景中,当两个VTEP之间的IP地址路由可达时,可在它们之间建立VXLAN隧道,因为它们只需要在同一个二层BD(广播域)中进行通信。当使用EVPN动态建立VXLAN隧道时,两个VTEP建立BGP EVPN对等体关系,并交换Type 3路由,传递VNI和VTEP IP地址信息。然后在它们之间动态建立 VXLAN 隧道。
通过 EVPN 学习 MAC 地址
当EVPN作为VXLAN的控制平面时,可以用EVPN来进行MAC学习,以替代数据平面泛洪方式的MAC学习,减少泛洪流量。使用EVPN来进行MAC学习的过程,是通过在VTEP之间传递Type2路由完成的。
下图举例说明VTEP是如何通过EVPN学习远程主机的MAC地址。
子网间 VXLAN 隧道建立和路由通告
主机路由通告
EVPN Type 2 路由既可以通告主机 MAC 地址和主机路由,因为 Type 2 路由可以携带具有 32 位掩码的主机 IP 地址。主机路由通告使不同网段上的主机能够在分布式网关场景下相互通信。
VTEP 需要相互通告连接主机的 IP 路由。否则,对端VTEP无法获知连接到本地VTEP的主机的路由信息,并且无法在三层主机之间转发子网间报文的转发。
网段路由通告
通告网段路由的过程与通告主机路由的过程类似,不同的是网段路由通过Type 5路由进行通告,而Type 2路由只能通告32位或128位的主机路由。对于32位或128位主机路由的通告,Type 5路由的作用与Type 2路由类似。
如果网关设备下连接的网段在整个网络中唯一,则可以配置发布网段路由,否则不能配置发布网段路由。
子网内 BUM 报文转发
当接收到一个主机到同一子网内另一个主机的 BUM 数据包时,VTEP 会将数据包发送到连接到同一子网上的主机的所有 VTEP。
子网间报文转发
在下图分布式网关场景中,Leaf1和Leaf2作为三层VXLAN网关,进行VXLAN封装和三层转发。Spine节点仅作为VXLAN报文转发节点,不处理VXLAN报文。
VXLAN BGP EVPN 网络上的 ARP 广播抑制
ARP 广播到单播的转换
设备将广播ARP报文转换为单播ARP报文,然后以单播的方式转发。ARP广播到单播的转换过程如下:三层VXLAN网关根据ARP表项生成ARP广播抑制表项(包含主机IP地址、MAC地址、VNI、VTEP IP地址信息),并将主机信息发送给通过 EVPN 的二层网关。二层网关收到广播ARP Request报文后,用学习到的主机MAC地址替换原来所有Fs的原始广播MAC地址。这样,二层网关就可以将广播报文转换为单播报文进行转发。
二层代理 ARP
使用ARP广播转单播功能实现ARP广播抑制时,需要三层网关。在纯二层网络中,没有三层网关可以学习到主机的ARP表项,这样就没法生成ARP广播抑制表项来抑制ARP广播报文。上述二层场景下的ARP广播抑制可以通过二层代理ARP功能实现。
总 结
传统的BGP-4使用Update报文在对等体之间交换路由信息。一条Update报文可以通告一类具有相同路径属性的可达路由,这些路由放在NLRI(网络层可达信息)字段中。因为BGP-4只能管理IPv4单播路由信息,为了提供对多种网络层协议的支持(例如IPv6、组播),发展出了MP-BGP。
MP-BGP在BGP-4基础上对NLRI作了新扩展。玄机就在于新扩展的NLRI上,扩展之后的NLRI增加了地址族的描述,可以用来区分不同的网络层协议,例如IPv6单播地址族、VPN实例地址族等。
类似的,EVPN也是借用了MP-BGP的机制,在L2VPN地址族下定义了新的子地址族------EVPN地址族,在这个地址族下又新增了一种NLRI,即EVPN NLRI。EVPN NLRI定义了几种BGP EVPN路由类型,这些路由可以携带主机IP、MAC、VNI、VRF等信息。这样,当一个VTEP学习到下挂的主机的IP、MAC地址信息后,就可以通过MP-BGP路由将这些信息发送给其他的VTEP,从而在控制平面实现主机IP、MAC地址的学习,抑制了数据平面的泛洪。
EVPN技术不仅被考虑用于 DC 流量,还可以用于即将到来的 5G 流量和相关应用。