全局Ceph节点宕机处理

在极端情况下,如数据中心断电,造成 Ceph 存储集群全局宕机,可以按照本节所示流程进行 Ceph 集群上电恢复操作。

4.1 手动上电执行步骤

  1. 如为 Ceph 集群上电,monitor server 应最先上电;集群上电前确认使用 Ceph 之前端作业服务已停止。

  2. 使用 IPMI 或于设备前手动进行上电。

  3. 确认 NTP 服务及系统时间已同步,命令如下:

    # ps-ef | grep ntp

    # date

    # ntpq -p

  4. 登入上电之 ceph server 确认 ceph service 已正常运行,命令如下:

    # ps -ef | grep ceph

  5. 登入集群 monitor server 查看状态,OSD 全都 up 集群仍为 noout flag(s) set

    # ceph -s

    # ceph osd tree

  6. 登入 monitor server 解除 stopping w/out rebalancing,命令如下:

    # ceph osd unset noout

    # ceph -w

    使用 ceph-w 可查看集群运作输出,同步完毕后集群 health 应为HEALTH_OK 状态。

4.2 恢复后检查步骤

  1. 确认设备上电状态,以 IPMI 或 于设备前确认电源为开启上电状态。

  2. ping ceph monitor server,检查 monitor server 可以 ping 通。

  3. 系统时间和校时服务器时间同步。

  4. ceph -s 状态为HEALTH_OK

  5. ceph osd tree OSD 状态皆为UP

4.3 恢复使用指令及其说明

  1. ceph -s : 确认 ceph cluster status

  2. ceph -w : 查看集群运作输出

  3. ceph osd tree : 查看ceph cluster上osd排列及状态

  4. start ceph-all : 启动 所有 ceph service

  5. start ceph-osd-all : 启动 所有 osd service

  6. start ceph-mon-all : 启动 所有 mon service

  7. start ceph-osd id={id} : 启动指定 osd id service

  8. start ceph-mon id={hostname} : 启动指定 ceph monitor host

  9. ceph osd set noout : ceph stopping w/out rebalancing

  10. ceph osd unset noout : 解除ceph stopping w/out rebalancing

相关推荐
lldhsds1 天前
Kubernetes云原生存储解决方案之 Rook Ceph实践探究
ceph·云原生·kubernetes
it技术分享just_free3 天前
kubernetes K8S 挂载分布式存储 ceph
运维·分布式·ceph·云原生·容器·kubernetes·k8s
ZZDICT10 天前
Ceph 基本架构(一)
ceph
行走的山峰12 天前
ceph之osd扩容和缩容
ceph
hejingdong12312 天前
ceph iscsi网关配置过程遇到的问题和解决办法
ceph·ceph iscsi·iscsi 网关
行走的山峰12 天前
ceph简介
ceph
奋斗的松鼠13 天前
numa分布奇葩引发的性能问题
ceph
奋斗的松鼠20 天前
2.1ceph集群部署准备-硬件及拓扑
linux·服务器·ceph
hejingdong12324 天前
ceph-iscsi 手动安装过程中的一些问题记录以及解决办法
ceph
奋斗的松鼠24 天前
2.2ceph集群部署准备-软件准备上
分布式·ceph