为了避免出现数据丢失以及保证 SDDC 组件的正常运行,启动和关闭 VMware Cloud Foundation 环境中的组件应该遵循特定的顺序。比如,在关闭管理工作负载域之前,应该先关闭 VI 工作负载域,如果 VI 工作负载域集群中还运行了 vSphere Supervisor 解决方案(之前叫 vSphere with Tanzu/vSphere IaaS Control Plane),应该先关闭容器化工作负载以及管理组件后再执行 VI 工作负载域关闭工作流。如果是启动 VCF 环境,首先应该启动管理工作负载域组件,然后再启动 VI 工作负载域以及工作负载虚拟机。
注意,以下内容为个人学习整理,有关更多内容和细节请参考官方产品文档《Shutdown and Startup of VMware Cloud Foundation》。
一、关闭 VCF 环境
由于当前 VCF 测试环境并不是一个完整的 VCF 环境,没有 VI 工作负载域,也并没有使用其他解决方案(如 DR 灾难恢复和 CMP 云管平台),所以下面有些不会列出具体的操作过程,只会大概分解并解释整个关闭 VCF 环境的过程。
(1) VI 工作负载域
如果 VI 工作负载域中使用了 vSphere Supervisor 解决方案,请单独访问《Shut Down a Virtual Infrastructure Workload Domain with vSphere with Tanzu》了解关闭过程。注意,如果当前 VI 工作负载域的 NSX Manager 和 NSX Edge 集群被多个其他 VI 工作负载域共享,请先关闭其他 VI 工作负载域中的工作负载虚拟机,然后再关闭其他 VI 工作负载域,最后再执行当前 VI 工作负载域关闭工作流。注意,如果使用了 ELM 增强型链接模式,则登录其中任意一个 vCenter Server 即可访问所有 VI 工作负载域并执行此过程;如果未使用 ELM 增强型链接模式,则需要登录所有 VI 工作负载域的 vCenter Server 并执行此过程。
1)关闭 VI 域 VM
登录 VI 域 vCenter Server,找到并关闭工作负载虚拟机。
2)关闭 Live Site Recovery
可以尽晚关闭 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
3)关闭 vSphere Replication
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
4)关闭 NSX Edge
登录管理域 vCenter Server,找到 VI 域的 NSX Edge 虚拟机,右击"关闭客户机操作系统",对其余 NSX Edge 节点重复执行该操作。关闭 VCF 环境 NSX SDN 网络与物理数据中心网络之间的南北向流量。
5)关闭 NSX Manager
登录管理域 vCenter Server,找到 VI 域的 NSX Manager 虚拟机,右击"关闭客户机操作系统",对其余 NSX Manager 节点重复执行该操作。
6)关闭 vCLS
登录 VI 域 vCenter Server,导航到集群->配置->vSphere 集群服务->常规,点击"编辑 vCLS 模式",修改为撤回模式,vCLS 虚拟机将被清理。
7)关闭 vSphere/vSAN
登录 VI 域 vCenter Server,导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常,如果主机在 lockdown 模式下,请将主机的 root 账户添加到 Exception Users (异常用户) 列表,最后右键单击 vSAN 集群,然后选择"vSAN"->"关闭集群"。
8)关闭 vCenter Server
登录管理域 vCenter Server,找到 VI 域的 vCenter Server 虚拟机,右击"关闭客户机操作系统"。
(2) 管理工作负载域
关闭完所有 VI 工作负载域中的组件后,可以开始关闭管理工作负载域。注意,如果 VMware Cloud Foundation 使用了整合架构部署,请先关闭管理域中所有工作负载虚拟机以及其他虚拟机,然后再执行管理工作负载域关闭工作流。注意,由于 SDDC Manager 在执行整个操作期间要被关闭,因此建议提前通过 lookup_passwords 命令查看并保存管理域 vCenter Server 和 ESXi 主机的密码凭据,以备不时之需。注意,如果管理域中包含像 AD/NTP/DNS/DHCP 等基础服务虚拟机,不能使用下面的 vSphere/vSAN 集群关闭向导,请将这些虚拟机以及 vCenter Server 迁移到管理域集群的第一台 ESXi 主机上,然后执行手动关闭流程。
1)关闭管理域 VM
登录管理域 vCenter Server,找到并关闭工作负载虚拟机。
2)关闭 Aira Automation
如果使用了 VMware Aira Automation(之前叫 vRealize Automation)解决方案,关闭过程详见:《Shutdown and Startup of Private Cloud Automation for VMware Cloud Foundation》
3)关闭 Aira Operations
如果使用了 VMware Aira Operations(之前叫 vRealize Operations)解决方案,关闭过程详见:《Shutdown and Startup of Intelligent Operations Management for VMware Cloud Foundation》
4)关闭 Workspace ONE Access
以 vcfadmin@local 的身份登录到 Aira Suite Lifecycle,在环境页面找到 VMware Identity Manager,选择关闭电源。
5)关闭 Aira Suite Lifecycle
登录管理域 vCenter Server,找到 Aira Suite Lifecycle 虚拟机,右击"关闭客户机操作系统"。
6)关闭 Live Site Recovery
可以尽晚关闭 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)关闭 vSphere Replication
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,关闭过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)关闭 Aira Operations for Logs
可以尽晚关闭 VMware Aria Operations for Logs,以收集有助于对潜在问题进行故障排除的日志数据。如果使用了 VMware Aira Operations for Logs(之前叫 vRealize Log Insight)解决方案,关闭过程详见:《Shutdown and Startup of Intelligent Logging and Analytics for VMware Cloud Foundation》
9)关闭 NSX Edge
登录管理域 vCenter Server,找到管理域的 NSX Edge 虚拟机,右击"关闭客户机操作系统",对其余 NSX Edge 节点重复执行该操作。关闭 VCF 环境 NSX SDN 网络与物理数据中心网络之间的南北向流量。
10)关闭 NSX Manager
登录管理域 vCenter Server,找到管理域的 NSX Manager 虚拟机,右击"关闭客户机操作系统",对其余 NSX Manager 节点重复执行该操作(当前测试环境只有一个)。

11)关闭 SDDC Manager
登录管理域 vCenter Server,找到管理域的 SDDC Manager 虚拟机,右击"关闭客户机操作系统"。

12)关闭 vSphere/vSAN
登录管理域 vCenter Server,导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。


如果主机在 lockdown 模式下,请将主机的 root 账户添加到 Exception Users (异常用户) 列表。

为了减少后面启动 VCF 环境管理域管理组件的时间,以及在发生意外情况下可以准确快速的找到 vCenter Server 虚拟机的位置,请将管理域 vCenter Server 虚拟机迁移到管理域默认管理集群中的第一个 ESXi 主机上。

最后右键单击 vSAN 集群,然后选择"vSAN"->"关闭集群"。

关闭集群预检查,请确定 vCenter Server 虚拟机所在的位置,点击下一步。


关闭 vSAN 集群将要自动依次执行的所有步骤,输入关闭的原因并点击关机。

vSphere/vSAN 集群关闭中。

完成 vSphere/vSAN 集群关闭后,管理域所有 ESXi 主机已自动关机。

二、启动 VCF 环境
由于当前 VCF 测试环境并不是一个完整的 VCF 环境,没有 VI 工作负载域,也并没有使用其他解决方案(如 DR 灾难恢复和 CMP 云管平台),所以下面有些不会列出具体的操作过程,只会大概分解并解释整个启动 VCF 环境的过程。
(1) 管理工作负载域
启动 VCF 环境之前,先开始启动管理工作负载域。注意,请在开始之前验证外部 AD/NTP/DNS/DHCP 等基础服务是否可用,如果管理域中包含像 AD/NTP/DNS/DHCP 等基础服务虚拟机,不能使用下面的 vSphere/vSAN 集群启动向导,如果关闭 VCF 环境的时候将这些虚拟机以及 vCenter Server 迁移到管理域集群的第一台 ESXi 主机,请执行手动启动流程。
1)启动 vSphere/vSAN
第一步肯定是启动管理域 ESXi 主机的电源,实际环境中可以登录服务器的带外管理(如 BMC/iLO/iDRAC)来启动 ESXi 主机的电源。为了让 vCenter Server 虚拟机及相关服务更早的启动,所以先打开管理工作负载域中第一台 ESXi 主机的电源,然后再打开剩余 ESXi 主机的电源。


启动 ESXi 主机的电源后,此时管理域 vCenter Server 应该可以登录访问,确定所有 ESXi 主机都已上线。右键单击 vSAN 集群,然后选择"vSAN"->"重新启动集群"。


vSphere/vSAN 集群启动中。

导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。


如果主机在 lockdown 模式下,并且在 VCF 环境关闭的时候已将主机的 root 账户添加到 Exception Users (异常用户) 列表,请在每个主机上移除它。

2)启动 SDDC Manager
登录管理域 vCenter Server,找到管理域的 SDDC Manager 虚拟机,右击"打开电源"。

3)启动 NSX Manager
登录管理域 vCenter Server,找到管理域的 NSX Manager 虚拟机,右击"打开电源",对其余 NSX Manager 节点重复执行该操作(当前测试环境只有一个)。

以 admin 用户登录到管理域 NSX Manager VIP,导航到系统->配置->设备,在该页面检查并确定集群为"稳定"状态,并且所有 NSX Manager 节点都可用。

4)启动 NSX Edge
登录管理域 vCenter Server,找到管理域的 NSX Edge 虚拟机,右击"打开电源",对其余 NSX Edge 节点重复执行该操作。
5)启动 Aira Operations for Logs
可以尽早启动 VMware Aria Operations for Logs,以收集有助于对潜在问题进行故障排除的日志数据。如果使用了 VMware Aira Operations for Logs(之前叫 vRealize Log Insight)解决方案,启动过程详见:《Shutdown and Startup of Intelligent Logging and Analytics for VMware Cloud Foundation》
6)启动 vSphere Replication
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)启动 Live Site Recovery
可以尽早启动 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)启动 Aira Suite Lifecycle
登录管理域 vCenter Server,找到 Aira Suite Lifecycle 虚拟机,右击"打开电源"。
9)启动 Workspace ONE Access
以 vcfadmin@local 的身份登录到 Aira Suite Lifecycle,在环境页面找到 VMware Identity Manager,选择启动电源。
10)启动 Aira Operations
如果使用了 VMware Aira Operations(之前叫 vRealize Operations)解决方案,启动过程详见:《Shutdown and Startup of Intelligent Operations Management for VMware Cloud Foundation》
11)启动 Aira Automation
如果使用了 VMware Aira Automation(之前叫 vRealize Automation)解决方案,启动过程详见:《Shutdown and Startup of Private Cloud Automation for VMware Cloud Foundation》
12)启动管理域 VM
如果 VMware Cloud Foundation 使用了整合架构部署,请登录管理域 vCenter Server,找到并启动工作负载虚拟机。
(2) VI 工作负载域
如果 VI 工作负载域中使用了 vSphere Supervisor 解决方案,请单独访问《Start a Virtual Infrastructure Workload Domain with vSphere with Tanzu》了解启动过程。注意,如果 NSX Manager 集群和 NSX Edge 集群与其他 VI 工作负载域共享,请先启动其他 VI 工作负载域,在启动最后一个工作负载域的过程中启动 NSX Manager 和 NSX Edge 节点。
1)启动 vCenter Server
登录管理域 vCenter Server,找到 VI 域的 vCenter Server 虚拟机,右击"打开电源"。
2)启动 vSphere/vSAN
可以登录 VI 域服务器的带外管理(如 BMC/iLO/iDRAC)来启动 ESXi 主机的电源。登录 VI 域 vCenter Server,确定所有 ESXi 主机都上线,右键单击 vSAN 集群,然后选择"vSAN"->"重新启动集群"。导航到 vSAN 集群,检查 Skyline 运行状况以及重新同步状态是否都正常。如果主机在 lockdown 模式下,并且在 VCF 环境关闭的时候已将主机的 root 账户添加到 Exception Users (异常用户) 列表,请在每个主机上移除它。
3)启动 vCLS
登录 VI 域 vCenter Server,导航到集群->配置->vSphere 集群服务->常规,点击"编辑 vCLS 模式",修改为系统模式。
4)启动 NSX Manager
登录管理域 vCenter Server,找到 VI 域的 NSX Manager 虚拟机,右击"打开电源",对其余 NSX Manager 节点重复执行该操作。以 admin 用户登录到 VI 域 NSX Manager VIP,导航到系统->配置->设备,在该页面检查并确定集群为"稳定"状态,并且所有 NSX Manager 节点都可用。
5)启动 NSX Edge
登录管理域 vCenter Server,找到 VI 域的 NSX Edge 虚拟机,右击"打开电源",对其余 NSX Edge 节点重复执行该操作。
6)启动 vSphere Replication
如果单独使用了 vSphere Replication 或搭配了 Live Site Recovery 解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
7)启动 Live Site Recovery
可以尽早启动 Live Site Recovery 和 vSphere Replication,以便在发生灾难事件时保护管理虚拟机。如果使用了 VMware Live Site Recovery(之前叫 Site Recovery Manager)解决方案,启动过程详见:《Shutdown and Startup of Site Protection and Disaster Recovery for VMware Cloud Foundation》
8)启动 VI 域 VM
登录 VI 域 vCenter Server,找到并启动工作负载虚拟机。