Ceph集群OSD崩溃恢复

Ceph集群OSD崩溃恢复

问题背景

集群处于HEALTH_WARN状态

1个守护进程(OSD.325)最近崩溃

通过ceph -s命令,查看详细的警告信息:

复制代码
[XXXXX ~]# ceph -s
  cluster:
    id:     xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
    health: HEALTH_WARN
            1 daemons have recently crashed
RECENT_CRASH 1 daemons have recently crashed
    osd.325 crashed on host hostname at YYYY-MM-DD HH:MM:SS.SSSSSSZ

问题分析

1. OSD崩溃问题

需要确认崩溃的OSD.325的状态。使用ceph osd find命令来定位OSD:

复制代码
[root@hostname ~]# ceph osd find 325
Error ENOENT: osd.325 does not exist

系统提示OSD.325不存在。进一步通过OSD树结构查找:

复制代码
[root@hostname ~]# ceph osd tree | grep 325

没有任何输出,确认了OSD.325已经不在集群中。

这种情况通常发生在:OSD崩溃后被管理员从集群中移除,但崩溃记录没有被清理。

2. 查看崩溃记录

接下来,我们查看集群中的崩溃记录:

复制代码
[root@hostname ~]# ceph crash ls
ID                                                               ENTITY     NEW 
YYYY-MM-DD_HH:MM:SS.SSSSSSZ_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx osd.325        
YYYY-MM-DD_HH:MM:SS.SSSSSSZ_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx osd.325        
YYYY-MM-DD_HH:MM:SS.SSSSSSZ_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx osd.325     *  

从输出中可以看到,确实存在OSD.325的崩溃记录,发生时间为YYYY年MM月DD日,并且标记为"NEW"(星号表示)。这意味着这个崩溃记录还没有被归档处理。

解决方案

1. 归档崩溃记录

既然OSD.325已经不在集群中,只需要归档这个崩溃记录即可消除相关警告:

复制代码
[root@hostname ~]# ceph crash archive YYYY-MM-DD_HH:MM:SS.SSSSSSZ_xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx

归档成功后,我们再次检查集群状态:

复制代码
[root@hostname ~]# ceph -s
  cluster:
    id:     xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx
    health: HEALTH_WARN
            XX pgs not deep-scrubbed in time

可以看到,OSD崩溃的警告已经消失

经验总结

  1. 定期检查集群状态 :通过ceph -s命令定期检查集群健康状态,及时发现问题。

  2. 崩溃记录管理 :当处理完OSD崩溃后,记得使用ceph crash archive命令归档崩溃记录,避免不必要的警告。

  3. 故障排除流程

    • 确认问题(ceph -s
    • 定位具体组件(ceph osd find, ceph osd tree
    • 查看详细信息(ceph crash ls
    • 采取修复措施(ceph crash archive
    • 验证结果(再次ceph -s
相关推荐
yuxb7313 小时前
Ceph 分布式存储学习笔记(四):文件系统存储管理
笔记·ceph·学习
刘某的Cloud2 天前
ceph设置标志位
linux·运维·ceph·openstack
yuxb7314 天前
Ceph 分布式存储学习笔记(二):池管理、认证和授权管理与集群配置(下)
笔记·ceph·学习
yuxb7316 天前
Ceph 分布式存储学习笔记(三):块存储和对象存储管理
笔记·ceph·学习
yuxb7316 天前
Ceph 分布式存储学习笔记(一):介绍、部署与集群配置(上)
笔记·ceph·学习
Insist75316 天前
基于OpenEuler--docker容器化部署ceph集群
ceph·docker·容器
qsqya1 个月前
ceph/daemon安装部署
ceph·云原生·eureka
误入运维泥潭1 个月前
Ceph分布式存储全解析:从了解到使用
ceph·rgw·rbd·mds
mixboot2 个月前
Ceph OSD 硬盘重连导致设备名变化
ceph
qq_312920112 个月前
K8s存储类(StorageClass)设计与Ceph集成实战
ceph·容器·kubernetes