ceph删除处理

前提:

已经存在"至少两个 Ceph 集群的残留 fsid",而且 OSD 也已经真实写入过数据。

👉 在这种状态下 强行重新 cephadm bootstrap 是一定会冲突的。

👉 正确做法只有一条:先"彻底清理旧 Ceph 环境 + 清空所有 OSD",再重新 bootstrap。


你现在这个判断是 完全正确的

👉 现在这台 192.168.244.128确实已经存在"至少两个 Ceph 集群的残留 fsid" ,而且 OSD 也已经真实写入过数据

👉 在这种状态下 强行重新 cephadm bootstrap 是一定会冲突的

👉 正确做法只有一条:先"彻底清理旧 Ceph 环境 + 清空所有 OSD",再重新 bootstrap。

你现在这个阶段,重装是最省时间、最稳、最干净的选择,比继续修复要靠谱得多。✅


✅ 一、为什么你现在"必须清理才能重装"?

你刚才这条报错是关键证据:

复制代码
ERROR: Cannot infer an fsid, one must be specified (using --fsid):
['38d01ece-d286-11f0-8ad6-a312283fe45c', 
 '5eed5f86-d281-11f0-9bce-f9fd96cc8846']

这说明:

  • 你这台机器上存在"两个 Ceph 集群的残留元数据"

  • ✅ cephadm 已经 无法判断你到底要进哪个集群

  • ✅ 这就是你:

    • ceph -s 连不上
    • cephadm shell 也进不去
    • RADOS 一直 permission denied
      的根本原因

再看你的磁盘:

复制代码
sdb → 已经被做成 ceph LVM OSD
sdc → 已经被做成 ceph LVM OSD
sdd → 已经被做成 ceph LVM OSD

这三块盘现在是:

❗**"已经被旧集群格式化过的 OSD 磁盘"**

➡️ 所以你的问题答案是:

✅ 结论 1:你现在必须清除 OSD,否则新集群一定失败


✅ 二、给你一套【100% 安全可复制的"彻底重装 Ceph"流程】

下面这套流程是:

✅ 官方标准

✅ 不留残渣

✅ 不会再出现 fsid 冲突

✅ 适合你这种"练习 + 云计算 + RBD + libvirt 场景"


✅【第 1 步】停止并移除所有 Ceph 容器(必须)

root@192.168.244.128 上执行:

bash 复制代码
cephadm rm-cluster --force --zap-osds --fsid 38d01ece-d286-11f0-8ad6-a312283fe45c
cephadm rm-cluster --force --zap-osds --fsid 5eed5f86-d281-11f0-9bce-f9fd96cc8846

这一步会:

  • ✅ 删除所有 MON / MGR / OSD 容器
  • ✅ 从系统中抹除 Ceph 进程
  • ✅ 尝试清理已知的 OSD 关联数据

✅【第 2 步】手工彻底擦除 3 块 OSD 磁盘(最关键)

你这三块盘是:

  • /dev/sdb
  • /dev/sdc
  • /dev/sdd

⚠️ 下面命令 会彻底清空磁盘(这是你现在最需要的)

bash 复制代码
wipefs -a /dev/sdb
wipefs -a /dev/sdc
wipefs -a /dev/sdd

sgdisk --zap-all /dev/sdb
sgdisk --zap-all /dev/sdc
sgdisk --zap-all /dev/sdd

然后再确认:

bash 复制代码
lsblk

你应该看到:

复制代码
sdb  20G  disk
sdc  20G  disk
sdd  20G  disk

下面 不应该再看到任何 ceph--xxx 的 LVM 名字

如果还存在,我可以继续给你"LVM 深度清理命令"。


✅【第 3 步】清空本机旧的 Ceph 配置(防止再次污染)

bash 复制代码
rm -rf /etc/ceph/*
rm -rf /var/lib/ceph/*
rm -rf /var/log/ceph/*

✅【第 4 步】确认系统现在是"完全干净状态"

下面四条你可以一次性执行:

bash 复制代码
ls /etc/ceph
ls /var/lib/ceph
cephadm ls
lsblk

✅ 你理想看到的是:

  • /etc/ceph 为空
  • /var/lib/ceph 为空
  • cephadm ls 没有任何 daemon
  • sdb sdc sdd 都是普通裸盘

✅ 三、现在才是【重新 bootstrap 的正确时机】

等你做到上面"完全干净"这一步之后,你再重新执行:

bash 复制代码
cephadm bootstrap --mon-ip 192.168.244.128

之后流程就会非常顺了:

1️⃣ 添加 node2

2️⃣ 添加 MON

3️⃣ 添加 OSD

4️⃣ 创建 RBD

5️⃣ 接入 libvirt


✅ 四、你现在最关键的 3 个问题,我直接给最终答案

❓1)现在还能"直接 bootstrap 覆盖吗"?

不能

👉 你现在是"双 fsid + 旧 OSD 残留"状态,直接 bootstrap 一定失败。


❓2)OSD 要不要清除?

必须清除,不清除 100% 导致新集群失败


❓3)我是不是"真的把环境搞坏了"?

❌ 没有

✅ 这是 Ceph 新手最常见的一种"重复 bootstrap 残留状态"

✅ 标准处理方式就是:

rm-cluster + wipefs + sgdisk + 重新 bootstrap


✅ 你现在可以这样做(一步一步执行,我全程陪你)

你现在可以先从 第 1 步和第 2 步开始执行

bash 复制代码
cephadm rm-cluster --force --zap-osds --fsid 38d01ece-d286-11f0-8ad6-a312283fe45c
cephadm rm-cluster --force --zap-osds --fsid 5eed5f86-d281-11f0-9bce-f9fd96cc8846

wipefs -a /dev/sdb
wipefs -a /dev/sdc
wipefs -a /dev/sdd

sgdisk --zap-all /dev/sdb
sgdisk --zap-all /dev/sdc
sgdisk --zap-all /dev/sdd

然后执行:

bash 复制代码
lsblk

👉 你只要把 lsblk 的结果发给我

我就能 100% 帮你确认:

✅ OSD 是否清除干净

✅ 是否可以安全重新 cephadm bootstrap

✅ 重新 bootstrap 后我可以给你一份 "绝对不再翻车"的多节点标准流程,一步一步来。


相关推荐
ejinxian3 小时前
MinIO 国产化替代品Ceph、Garage 、RustFS
ceph·minio·rustfs·garage
The star"'17 小时前
ceph(5-8)
运维·ceph·云计算
-dcr18 小时前
44.ceph分布式存储
ceph
The star"'18 小时前
ceph(1-4)
运维·ceph
wniuniu_1 天前
ceph入门
windows·ceph·eureka
Xyz996_2 天前
Ceph分布式存储
分布式·ceph
Ryan ZX17 天前
Rook 云原生存储编排系统
ceph·云原生·云计算
刘某的Cloud1 个月前
ceph osd down排查
linux·运维·ceph·系统·osd
chen_note1 个月前
Ceph常用的三种存储操作
ceph·对象存储·minio·块存储·文件存储