从 Ceph 16(Pacific)到 Ceph 18(Reef):cephadm 的伸缩性演进与 cephadm agent 到底“成熟”了吗?

从 Ceph 16(Pacific)到 Ceph 18(Reef):cephadm 的伸缩性演进与 cephadm agent 到底"成熟"了吗?

在讨论 Ceph 16(Pacific)→ 17(Quincy)→ 18(Reef)的改进时,"cephadm 是否引入了 agent、是否摆脱了纯 SSH 轮询、Reef 是否已经成熟可管理超大规模集群"等说法常被混用。本文基于官方文档与发行说明,给出一条更可验证、也更稳妥的时间线,并指出你原描述中需要修正的部分。


1. 先澄清:cephadm 的"中心化 SSH 轮询"是真的吗?

cephadm 的确以 SSH 作为关键管理通道 :官方文档明确写到,cephadm 使用 SSH 连接远端主机,并且 把 SSH key 存在 monitor 中 ,用于后续管理与运维动作(例如添加主机、启动容器、执行命令等)。 (Ceph 文档)

但把它简单描述成"Mgr 只能通过 SSH 轮询各节点"会遗漏一个关键事实:Pacific 时期已经在设计/推进把部分耗时采集下沉到主机侧常驻组件,以缓解管理面伸缩性压力。


2. Ceph 16(Pacific):真正的关键词是 cephadm-exporter(主机侧常驻采集的设计)

Pacific 的开发文档中,已经出现 cephadm-exporter 的设计与需求说明:它的出发点非常明确------cephadm 二进制在主机侧有一些"长耗时任务",这些任务带来的延迟会成为 orchestrator 管理面的伸缩性挑战;解决思路是让这些任务在主机侧异步执行,从而释放 mgr 的处理压力、降低延迟、提升可扩展性。 (Ceph 文档)

更重要的是,该文档在需求里直接写出了面向大规模集群的指标,例如"响应元数据查询 <30ms,以支持 000's nodes(数千节点)"。 (Ceph 文档)

因此,对 Pacific 更严谨的表述是:

  • cephadm 的确依赖 SSH 进行远程管理(并保存 SSH key 于 MON); (Ceph 文档)
  • 同时,Pacific 已经在引入/规划 cephadm-exporter 这种"主机侧常驻、异步采集/快速响应"的机制,为后续伸缩性演进打基础。 (Ceph 文档)

你原文中"超过 100 节点会成为瓶颈"的具体阈值,官方材料中并未直接给出这个数字;官方更偏向于描述"存在伸缩性挑战"和"周期性抓取"的机制问题,而不是给定一个硬阈值。 (Ceph 文档)


3. Ceph 17(Quincy):发行说明明确提到 "cephadm agent"

Quincy 的官方发行博客(v17.2.0)在 "Major Changes from Pacific" → "Cephadm" 条目里,明确列出了一条改动:

  • "cephadm agent for increased performance/scalability" (Ceph)

这句话足以支撑:"Quincy 引入了 cephadm agent,以提升性能与可扩展性"。

但需要注意:

发行说明在这里强调的是"引入 agent 以提升性能/伸缩性",并没有在这段文字中详述你提到的"节点主动上报状态、摆脱 SSH 轮询"的机制细节。因此,若写作需要完全可核验,建议避免把实现细节断言得过满,而是把它写成"agent 方向的能力开始出现并被用于提升伸缩性"。 (Ceph)


4. Ceph 18(Reef):官方口径仍把 "cephadm agent"列为 under development

你的原文里最需要修正的是这一句:"Reef:Agent 模式正式成熟......"。

Reef 文档的 "Compatibility and Stability" 页面在 "Stability" 一节明确写到:

  • "Cephadm support remains under development for the following features: ... cephadm agent " (Ceph 文档)

也就是说,至少从 Reef 官方文档口径看,cephadm agent 仍处在"持续开发中",不宜在博客中将其定性为"正式成熟"。

与此同时,Reef 的伸缩性开发笔记也说明:cephadm 在当时仍是"周期性 scrape 每台主机"(默认每 6 分钟、并行 10 台),并讨论了在引入 exporter 后依旧存在的进一步伸缩性问题(例如"SSH + HTTP 双传输层"的取舍等)。 (Ceph 文档)


5. 更稳妥的三段式时间线(可直接替换你原描述)

你原来的叙述方向大体正确,但建议改成下面这种"每句都能在官方材料中找到支撑"的版本:

  • Ceph 16(Pacific) :cephadm 使用 SSH 连接并管理远端主机(SSH key 存放于 MON);同时,社区提出并推进 cephadm-exporter (主机侧常驻、异步采集/快速响应)的设计,以缓解管理面伸缩性挑战。 (Ceph 文档)
  • Ceph 17(Quincy) :发行说明明确提到引入 cephadm agent ,用于提升性能与可扩展性(release notes 明确列项)。 (Ceph)
  • Ceph 18(Reef) :官方文档仍将 cephadm agent 列为 under development;伸缩性笔记也表明系统仍在围绕"周期性抓取 + exporter"及其后续优化持续演进,因此不宜称为"已正式成熟"。 (Ceph 文档)

6. 写在最后:你那段话"哪里对、哪里不对"一句话总结

  • "Quincy 引入 cephadm agent(提升性能/伸缩性)"------ (有明确发行说明支持)。 (Ceph)
  • "Pacific 主要依赖 SSH"------部分对,但不完整 (SSH 是核心通道,但 Pacific 已有 exporter 方向的主机侧常驻能力设计)。 (Ceph 文档)
  • "Reef agent 模式正式成熟、可轻松支撑超大规模"------不对/缺少官方支撑 (Reef 文档仍写 under development)。 (Ceph 文档)

相关推荐
Dxy123931021611 分钟前
深度解析 Elasticsearch:从倒排索引到 DSL 查询的实战突围
大数据·elasticsearch·搜索引擎
YongCheng_Liang16 分钟前
零基础学大数据:大数据基础与前置技术夯实
大数据·big data
AC赳赳老秦21 分钟前
2026国产算力新周期:DeepSeek实战适配英伟达H200,引领大模型训练效率跃升
大数据·前端·人工智能·算法·tidb·memcache·deepseek
roman_日积跬步-终至千里24 分钟前
【Java并发】Java 线程池实战:警惕使用CompletableFuture.supplyAsync
java·开发语言·网络
毕设源码-钟学长26 分钟前
【开题答辩全过程】以 基于Springboot的扶贫众筹平台为例,包含答辩的问题和答案
java·spring boot·后端
鹏说大数据31 分钟前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人35 分钟前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
B站计算机毕业设计超人36 分钟前
计算机毕业设计hadoop+spark+hive交通拥堵预测 交通流量预测 智慧城市交通大数据 交通客流量分析(源码+LW文档+PPT+讲解视频)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
数据架构师的AI之路37 分钟前
深入了解大数据领域Hive的HQL语言特性
大数据·hive·hadoop·ai
CodeSheep程序羊41 分钟前
拼多多春节加班工资曝光,没几个敢给这个数的。
java·c语言·开发语言·c++·python·程序人生·职场和发展