ceph中的crush map

当集群系统变得复杂时,我们往往需要多种策略来存放不同类型的数据;例如,将热数据存放于SSD中,而将冷数据放在HDD中。CRUSH rule就是定义了一种选择策略,Ceph中每个逻辑池都必须对应一条合法的rule才能正常工作。还是以上面链接中的crushmap为例,分析一下rule的具体含义。

python 复制代码
1    rule replicated_ruleset {
2        ruleset 0
3        type replicated
4        min_size 1
5        max_size 10
6        step take default
7        step chooseleaf firstn 0 type host
8        step emit
9    }
  • Line 1-2: rule的名称和编号
  • Line 3: rule类型;replicated代表适用于副本池,erasure代表适用于EC池
  • Line 4-5: rule适用的池size大小;本例表示1副本到10副本的池均可采用此条rule
  • Line 6-9: 具体的选择步骤
    • take: 直接选中一项item,一般用于指定选择算法的起点;本例中名为default的root类型bucket即为起点
    • chooseleaf firstn 0 type host: 选择策略,这个是重点,后面细述
    • emit: 返回结果

<1>: choose/chooseleaf

  • choose表示选择结果类型为故障域(由<4>指定)
  • chooseleaf表示在确定故障域后,还必须选出该域下面的OSD节点(即leaf)

<2>: firstn/indep

  • firstn: 适用于副本池,选择结果中rep(replica,指一份副本或者EC中的一个分块,下同)位置无明显意义
  • indep: 适用于EC池,选择结果中rep位置不可随意变动

举例来说,副本池中每份副本保存的是完全相同的数据,因此选择结果为[0, 1, 2](数字代表OSD编号)与[0, 2, 1]并无大的不同。但是EC池不一样,在2+1的配比下前两份是数据块,最后一份是校验块,后两份rep位置一交换就会导致数据出错。

<3>: num_reps

这个整数值指定需要选择的rep数目,可以是正值负值或0。

  • 正整数值即代表要选择的副本数,非常直观
  • 0表示的是与实际逻辑池的size相等;也就是说,如果2副本池用了这个rule,0就代表了2;如果3副本池用了此rule,0就相当于3
  • 负整数值代表与实际逻辑池size的差值;如果3副本池使用此rule将该值设为了-1,那边该策略只会选择出2个reps

<4>: failure domain

指定故障域类型;CRUSH确保同一故障域最多只会被选中一次。

python 复制代码
step take default
step choose firstn 3 type host
step choose firstn 1 type osd
step emit

新增的一步会在上述基础上,再以每个选中的host为起点,在host下选择1个OSD。另一个更方便的方案是:

相关推荐
confiself24 分钟前
GO环境配置
linux·运维·centos
可可嘻嘻大老虎6 小时前
nginx无法访问后端服务问题
运维·nginx
惊讶的猫7 小时前
探究StringBuilder和StringBuffer的线程安全问题
java·开发语言
jmxwzy7 小时前
Spring全家桶
java·spring·rpc
Halo_tjn7 小时前
基于封装的专项 知识点
java·前端·python·算法
阳光九叶草LXGZXJ7 小时前
达梦数据库-学习-47-DmDrs控制台命令(LSN、启停、装载)
linux·运维·数据库·sql·学习
无忧智库7 小时前
某市“十五五“地下综合管廊智能化运维管理平台建设全案解析:从数字孪生到信创适配的深度实践(WORD)
运维·智慧城市
珠海西格7 小时前
“主动预防” vs “事后补救”:分布式光伏防逆流技术的代际革命,西格电力给出标准答案
大数据·运维·服务器·分布式·云计算·能源
Fleshy数模8 小时前
从数据获取到突破限制:Python爬虫进阶实战全攻略
java·开发语言
像少年啦飞驰点、8 小时前
零基础入门 Spring Boot:从“Hello World”到可上线的 Web 应用全闭环指南
java·spring boot·web开发·编程入门·后端开发