关于ceph osd auth keyring

概述

关于osd auth 认证

如果在删除osd时，id指定错误，错误执行了ceph auth del osd.x，此时osd工作目录还在，osd重启会因为认证无法启动。只要重新添加该osd auth认证即可

bash 复制代码

ceph auth add osd.{osd-num} osd 'allow *' \
	mon 'allow profile osd' \
	mgr 'allow profile osd' \
	-i /var/lib/ceph/osd/ceph-{osd-num}/keyring

上述原理和命令对于各位运维来说应该非常熟悉，不算新鲜命令，不做展开。

上述命令从另一个角度，也可以理解为，为拥有完成结构的osd，添加auth认证，从而可以加入集群。

在ceph运维中最常见的一种场景：换盘重建

假设一个大规模集群，出现硬盘损坏，以往的方案：

此步骤没有任何问题，确实可以完成硬盘重建。但对集群来说，pg状态经历了至少3次变化

也就是说完全删除osd，再重新create的方法，会引起额外的pg迁移和恢复时间，且在集群规模很大，pg很多时，很多pg要重新参与计算分布

能否有一种方式优化呢？

显然可以，只要不进行out和删除osd的操作，保持osd tree结构没有发生过变化，就可以优化这个过程。

将旧盘拔下后，直接插上新盘。以一个init.conf（结构和ceph.conf类似，cluster为空或者补齐0）正常zap、prepare

bash 复制代码

ceph-volume lvm zap ......
ceph-volume lvm prepare --cluster init .......

挂载临时temp，

然后将旧的osd的几个配置文件恢复，分别是：

恢复完成后，umount掉temp临时目录

进行activate激活即可，新硬盘会直接承担旧硬盘的osdid，并承担原有工作。