1. 为什么必须"专用管理集群"
带来三项收益(官方原文):
- Availability of the control plane
- Operational isolation from tenant workloads
- Lifecycle predictability during upgrade and maintenance
⚠️ 官方明确:"Don't deploy workloads other than the control plane to the management cluster." ------ 微软用 "Don't" 表达设计要求,虽未写 "Unsupported",但对于微软文档而言已经等同于设计要求。
2. 生产环境最低硬件规格
重要说明 :Dedicated Management Cluster 的硬件规格以 Disconnected Operations 官方要求为准------其要求高于普通 Azure Local 集群的最低配置 。普通 Azure Local 节点的最低规格不适用于专用管理集群。
|--------|--------------------------------------------------------|
| 项 | 最低配置 |
| 节点数 | 3(生产)/ 官方支持最多16节点 |
| 每节点内存 | 512 GB |
| 每节点物理核 | 24 cores |
| 每节点存储 | 至少 8 块 SSD/NVMe(每块 ≥ 2 TB) |
| 启动盘 | 960 GB SSD/NVMe(推荐),低于此值需把 appliance 装到数据盘上(增加复杂度) |
官方原文强调:"Production deployments require a dedicated three-node Azure Local management cluster... Evaluation and test configurations may use smaller management clusters, as described in the deployment options later in this article."
小型/POC 配置见 §5。
3. 采购路径
- 打开 Azure Local catalog
- 左菜单 Solution capability → 选 Disconnected operations
- 选个硬件方案 → Solution capability 标签页 → 验证是否标为 "可作为 management cluster"
当前支持断开操作的解决方案主要来自 Premier Solutions ,具体以 Azure Local Catalog 为准。后续可能出现 Integrated Systems、Validated Nodes 等多种类别,以官方 Catalog 实时状态为准。
OEM 自家站的文档覆盖情况 (调研结果,截至 2026-07):
- Dell / Lenovo /HPE 这三大OEM 在自己官网 上没有专门针对 Azure Local Disconnected Operations 的产品文档、白皮书或参考架构
- 原因:断开操作是 2602 才 GA 的新功能,OEM 通常需要 6-12 个月才会把它整合进产品页
- 正确路径 :以 Microsoft Azure Local catalog 为唯一权威 SKU 源;OEM 自家站现阶段主要看硬件 datasheet,断开操作相关内容要找 OEM 销售/FAE 确认
⚠️ 提示:此调研结论仅代表 2026-07 时点,OEM 文档上线后请重新核对。
4. 拓扑与负载隔离
- 管理集群只跑 :
-
断开操作控制面 appliance
-
支撑管理服务
-
Management Cluster (3 nodes, dedicated)
└── Disconnected Operations Appliance VM (control plane) -
Workload Cluster (separate, anywhere)
└── Azure Local VMs
└── AKS
└── ACR
-
-
4.1 网络设计
小规模管理集群 (如 3 节点 POC / 小型部署)可采用 switchless 网络降低复杂度。
大型生产环境 仍可(且通常推荐)采用 Azure Local 标准网络设计:外部存储交换机、RoCE、Network ATC 等。
存储配置 :Azure Local 默认采用 Storage Spaces Direct(S2D) ,磁盘以 JBOD / Pass-through / HBA 模式管理------无需(且通常不应)配置硬件 RAID。这是 Azure Local 架构的标准做法,适用管理集群。
5. POC 拓扑(4 节点)三种选法
5.1 Option 1 --- Management-focused(管理聚焦)
- 3 节点管理集群 + 1 节点 workload 集群
- 适用:评估控制面架构、规模、隔离、运维独立性
5.2 Option 2 --- Workload-focused(工作负载聚焦)
- 1 节点管理集群(仅测试)+ 3 节点 workload 集群(或 1 节点,取决于测试目标)
- 适用:评估工作负载行为、部署弹性、minimal 管理面
- 注意:官方图示通常采用 3 节点 workload;1 节点用于最小成本验证
5.3 Option 3 --- Multi-cluster-focused(多集群聚焦)
- 1 节点管理集群(仅测试)+ 3 个 1 节点 workload 集群
- 适用:评估多集群管理、跨隔离环境的统一运维
⚠️ 1 节点管理集群仅测试用------生产必须 3 节点。
6. 容量规划建议(官方建议)
官方原文:"Because the control plane runs locally, you need to plan capacity to keep the management cluster reliable."
- 硬件规模**≥** 控制面要求(不要刚好够)
- 管理集群不当通用计算池
- 留 headroom 给更新/生命周期
- 预演 节点修复/替换流程
7. 下一步(官方原文流程)
- 看完 Eligibility criteria
- 在 catalog 里选标为 "disconnected operations supported" 的硬件方案
- 资格审批通过后,根据 Deployment Options 选择适合的 POC 配置
- 按 Deploy 文档 安装配置
8. "官方没明说"的事项
- 管理集群节点数上限 :官方文档(Deploy 阶段)明确写到 Management Instance 最多支持 16 节点------但官方未明确说明扩容流程是否与普通 Azure Local 集群完全一致。
- 管理集群后续扩容 :官方未限制 Dedicated Management Cluster 后续扩容,但也未专门描述其扩容流程。Azure Local 本身支持节点扩展,但断开操作专用集群是否沿用同一流程需要确认。
- 存储配置 :官方未说明 RAID,因为 Azure Local 默认采用 Storage Spaces Direct(JBOD/Pass-through),通常无需配置硬件 RAID。
- Switchless vs 交换机网络:参见 §4.1------小规模可采用 switchless;大型生产按 Azure Local 标准网络设计。
- 管理集群与工作负载集群的互联带宽:官方未明示。按 Azure Local 标准网络要求设计。