Azure Local与Windows Server HCI的Switchless架构

Azure Local和 Windows Server 2025 HCI(Storage Spaces Direct)目前都支持 Switchless(无交换机)存储网络架构,而且微软已经将其作为一种官方推荐的部署方案,尤其是边缘部署场景。

什么是 Switchless?

Switchless 并不是整个集群没有交换机,而是只有存储网络(SMB Direct/RDMA)不经过交换机,而采用服务器之间直连(Direct Attach)。

外部网络(管理、VM、Internet)仍然需要 ToR Switch。

微软把网络分成两部分:

也就是说:

  • Management → 交换机
  • VM Network → 交换机
  • Live Migration → 可以走 Storage
  • SMB Direct → 服务器直连

因此它叫:Storage Switchless,

而不是:Entire Cluster Switchless

微软为什么支持 Switchless?

微软主要针对:

  • 边缘计算(Edge)
  • 工厂
  • 零售门店
  • 医院
  • 分支机构
  • 小规模 HCI

因为这些地方:没有必要再买两台 25/100G DCB Storage Switch。

官方文档甚至直接写到:Storage Switchless 可以显著降低部署成本。

支持多少节点?微软目前官方支持:

大只能:4 Nodes,不能继续 Add Node,这是微软官方限制。

为什么只能4节点?因为采用:Full Mesh(全互连)

例如:

  • 2节点:
  • 3节点:

a. 单链路 full mesh switchless 互连

b. 双链路 full mesh switchless 互连

  • 4节点:

a. 单链路 full mesh switchless 互连

b. 单链路 full mesh switchless 互连

每增加一个节点:所有服务器都要新增直连。

2节点的服务器,可以扩展到最多4节点服务器互连。

节点越多布线会迅速变得复杂,因此微软规定:

超过4节点必须采用 Storage Switch 架构。

每台服务器需要多少网口?

微软官方建议:

1)2 Node

通常:

  • 2 × RDMA
  • 2 × Management
  • 共4口

2)3 Node

需要:

  • 4 × RDMA
  • 2 × Management
  • 共6口

因为:每台机器要分别连接另外两台。

  1. 4 Node

需要:

  • 6 × RDMA
  • 2 × Management
  • 共8口

但从上面拓扑图可以看出,3节点与4节点是有两种连接方案,上面只是双存储链路互连的解决方案,但通常在3节点或4节点的商业场景中,尤其是4节点,为了降低布线的复杂性,简化后期的运维管理,通常采用单链路互连。这并不会降低存储复制的可靠性,即使某条单链路中断,服务器通过其它服务器也可以实现存储数据的同步复制,只是可能稍微有点延后,实际是延迟是非常小,几乎可以忽略不计。

Switchless 最大优势,最大的优势其实不仅是节省交换机。

真正优势有:

① 不需要 DCB

因为:没有交换机。

所以:不用配置:

  • PFC
  • ETS
  • QoS
  • ECN

微软官方说明:Storage Switchless 不需要配置交换机上的 DCB 参数。

② RDMA 更稳定

因为:没有 Switch Buffer

没有:

  • HOL Blocking
  • Queue Congestion
  • PFC Storm

RoCE 配置简单很多。

③ 延迟最低

传统架构:

Server

Switch

Server

而Switchless:

Server

DAC Cable

Server

少了一跳,Latency 更低。

④ 成本低

例如:

传统:2 × 100G Switch几十万元

Switchless:

DAC Cable几百元

对于边缘站点非常划算。

有哪些缺点?

最大的缺点就是:

扩容有限,但是在绝大多数客户应用场景都是低于4个节点,足够满足。

Windows Server 2025 对这种架构还有一个改进:

微软改进了 Hyper-V Live Migration 的网络选择逻辑,能够更好地识别直连互连网络,减少 Switchless 环境下 Live Migration 走错网络的问题。

因此:

  • Azure Local
  • Windows Server 2025 S2D
  • Hyper-V Failover Cluster

相比 Windows Server 2022,都更加适合 Switchless 部署。

综合来看,微软近年来已经将 Storage Switchless 定位为 Azure Local 和 Windows Server 2025 HCI 在边缘场景中的一种标准参考架构。 如果集群规模在 2~4 节点、未来没有扩容需求,它可以降低硬件成本、简化 RDMA/DCB 配置,并获得较低的存储网络延迟;而对于需要持续扩展的生产数据中心,则仍建议采用基于双 ToR RDMA 交换机的存储网络架构。实际上,客户也可以将无交换机的部署场景在扩容后改造成有交换机的场景,只是稍微对存储网络重新进行规划及配置调整。