ceph mon 数据重建

概述

在ceph集群架构中,我们一般会配置多个且一般为奇数个mon作为监控服务,当集群中少于半数mon异常时,mon集群不会受到影响,依然可以进行选举。而某些极限场景,所有mon或者当集群本身只有一个mon,mon服务异常,db数据损失时,集群就会受到影响。

此文档提供一种,利用osd中map,重构mon db数据并恢复mon服务的方法。当然,存在此恢复方法并不意味着集群mon容灾不重要,我们依然要按照社区标准,针对集群规模,设置数量足够多的mon节点

测试过程

背景

  • 所有osd up in,pg active+clean
  • 集群只有一个mon

停止mon服务并模拟mon数据全部损坏

bash 复制代码
systemctl stop ceph-mon@mon0
mv /var/lib/ceph/mon/ceph-mon0 /tmp/ceph-mon0.bak                                                                                                

此时mon数据相当于完全丢失,ceph命令无响应

停止所有osd进程

(使用ceph-objectstore-tool时都需要停止osd的进程以操作osd的目录)

bash 复制代码
systemctl stop ceph-osd.target

创建临时mon目录,以收集map信息

本节点只有0和1两个osd,因此执行以下命令即可

bash 复制代码
mkdir /tmp/mon-rebuild
ceph-objectstore-tool --id=0  --data-path /var/lib/ceph/osd/ceph-0 --op update-mon-db --mon-store-path /tmp/mon-rebuild
ceph-objectstore-tool --id=1  --data-path /var/lib/ceph/osd/ceph-2 --op update-mon-db --mon-store-path /tmp/mon-rebuild

此时完成了本节点上所有osd的db数据收集追加,注意该动作每次都以追加形式写到/tmp/mon-rebuild目录,这意味着,如果你有多个节点,当你做完一个节点,需要将该目录完全拷贝至其他节点,并对其他节点上的所有osd继续执行update-mon-db目录,最终完成所有osd的收集,并最终获取一个包含了所有db信息的/tmp/mon-rebuild目录

重建mon目录,恢复完整结构

bash 复制代码
ceph-monstore-tool /tmp/mon-rebuild/ rebuild
mkdir /var/lib/ceph/mon/ceph-mon0/
cp -ra /tmp/mon-rebuild/* /var/lib/ceph/mon/ceph-mon0/
touch /var/lib/ceph/mon/ceph-mon0/done
touch /var/lib/ceph/mon/ceph-mon0/systemd

注意,如果你这里原本集群数据并不是像测试,而是遭遇了系统盘故障类似情形,可能整个/var/lib/ceph目录都需要手动重建,可能需要主要ceph用户组,权限等问题,这里不做展开。

恢复monmap

这步是必须的,无论原来集群是几个mon,这步需要新建一个只包含一个上面需要用来临时启动mon服务的monmap。

bash 复制代码
cat /etc/ceph/ceph.conf|grep fsid #获取集群的fsid
monmaptool --create --fsid ********-****-****-****-************ --add mon0 ip:6789 monmap
ceph-mon -i mxj --inject-monmap monmap

启动mon服务

bash 复制代码
systemctl start ceph-mon@mon0

ceph mon服务恢复后,其余服务和数据在按照正常case问题处理即可,此处不做展开。

总结

集群中所有mon数据异常,本身就是一个高危场景,日常运维过程中,应极力避免此类故障发生。即使社区已合入根据收集的所有osd的map来恢复mon数据的方法,也并不代表可以忽视mon集群安全问题。

在进行上述修复操作时,需要小心谨慎,一旦update-mon-db失败、遍历缺少了部分osd的信息都会导致最终无法恢复mon,且重试无效。

相关推荐
자신을 변화시키다42 分钟前
磁盘配额管理
linux·运维·服务器·ubuntu·磁盘管理
国际云,接待1 小时前
AWS S3:云存储的“超级基石”
服务器·网络·人工智能·github·aws·亚马逊
2501_915374351 小时前
Neo4j 图数据库安装教程(2024最新版)—— Windows / Linux / macOS 全平台指南
数据库·windows·neo4j
it-搬运工1 小时前
3.图数据Neo4j - CQL的使用
数据库·neo4j
IU宝1 小时前
文件系统1(Linux中)
linux·运维·服务器
小Tomkk1 小时前
Linux 系统设置时区
linux·运维·服务器
yang_xiao_wu_1 小时前
Linux
linux·运维·服务器
星哥说事1 小时前
Rocky Linux 9 系统安装配置图解教程并做简单配置
linux·运维·服务器
法迪1 小时前
linux thermal framework(3)_thermal cooling device
linux·运维·服务器
자신을 변화시키다2 小时前
Linux NFS服务器配置
linux·运维·服务器·经验分享·ubuntu·实验