Ceph入门到精通-bluestore IO流程及导入导出

bluestore

直接管理裸设备，实现在用户态下使用linux aio直接对裸设备进行I/O操作

写IO流程：

一个I/O在bluestore里经历了多个线程和队列才最终完成，对于非WAL的写，比如对齐写、写到新的blob里等，I/O先写到块设备上，然后元数据提交到rocksdb并sync了，才返回客户端写完成（在STATE_KV_QUEUED状态的处理）；对于WAL（即覆盖写），没有先把数据写块设备，而是将数据和元数据作为wal一起提交到rocksdb并sync后，这样就可以返回客户端写成功了，然后在后面的动作就是将wal里的数据再写到块设备的过程，对这个object的读请求要等到把数据写到块设备完成整个wal写I/O的流程后才行，代码里对应的是_do_read里先o->flush()的操作，所以bluestore里的wal就类似filestore里的journal的作用

bluestore 元数据

Bluestore的所有的元数据都以KV对的形式写入RocksDB中，主要有以下的元数据：

复制代码

// 保存BlueStore的超级块信息,在KV中， 以PREFIX_SUPER为Key的前缀 
const string PREFIX_SUPER = "S"; // field -> value
// 保存Collection的元数据信息bluestore_cnode_t 
const string PREFIX_COLL = "C"; // collection name -> cnode_t
// 保存对象的元数据信息 
const string PREFIX_OBJ = "O"; // object name -> onode_t

//需要主要的是，onode 和 enode的信息 都 以PREFIX_OBJ 为前缀，只是同一个对象的onode和 enode的信息的key不同来区分。

// 保存 overly 信息 
const string PREFIX_OVERLAY = "V"; // u64 + offset -> data

// 保存对象的omap 信息 
const string PREFIX_OMAP = "M"; // u64 + keyname -> value

// 保存 write ahead log 信息 
const string PREFIX_WAL = "L"; // id -> wal_transaction_t

// 保存块设备的空闲extent信息 
const string PREFIX_ALLOC = "B"; // u64 offset -> u64 length (freelist)

ceph bluefs

内存文件系统，mount的时候，通过扫码日志，在内存中还原出整个文件系统的状况

ceph 高级工具

ceph-bluestore-tool

ceph-bluestore-tool bluefs-export --path /var/lib/ceph/osd/ceph-0 --out-dir ./osd0
ceph-kvstore-tool

ceph-kvstore-tool bluestore-kv /var/lib/ceph/osd/ceph-0/ list > ceph.osd0.kvstore
ceph-kvstore-tool rocksdb /var/lib/ceph/mon/ceph-storage46/store.db/ list > mon.list
ceph-kvstore-tool bluestore-kv /var/lib/ceph/osd/ceph-0/ get C 1.11_head out tmp
ceph-objectstore-tool

ceph-objectstore-tool --op list-pgs --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore
ceph-objectstore-tool --pgid 7.0 --op log --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore > pglog.txt
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore --pgid 17.3 hello.txt get-bytes
ceph-objectstore-tool --data-path /var/lib/ceph/osd/ceph-8/ --type bluestore hello.txt get-attr -

ceph crush算法

image.png

osd crush weight和 osd reweight区别

OSD上面数据相对不平衡时，我们应该使用ceph osd reweight 命令修改reweight值，而不应该使用ceph osd crush reweight 命令修改weight值。原因在于，修改reweight值将不会改变bucket的weight，而如果修改weight值就会改变整个bucket的weight。bucket weight 一旦改变，就会导致数据在bucket之间进行迁移，而不是在bucket内部进行迁移，这能最小化数据的转移量

ceph pg平衡工具

reweight
balancer
upmap+osdmap
http://www.strugglesquirrel.com/2019/05/22/超实用的pg均衡工具upmap/

操作rados

复制代码

import rados
import sys

cluster = rados.Rados(conffile='/etc/ceph/ceph.conf')
print "\nlibrados version: " + str(cluster.version())
print "Will attempt to connect to: " + str(cluster.conf_get('mon initial members'))

cluster.connect()

print "\nCluster ID: " + cluster.get_fsid()

print "\n\nCluster Statistics"
print "=================="
cluster_stats = cluster.get_cluster_stats()

for key, value in cluster_stats.iteritems():
    print key, value

ioctx = cluster.open_ioctx('mypool')
ioctx.aio_write("name","liu",offset=0)
ioctx.aio_write("name","liu",offset=1024)
ioctx.aio_flush()

参考

ceph bluestore非对齐写入策略
 https://blog.csdn.net/Z_Stand/article/details/99654729

ceph 读流程

从Primary OSD中读取（offset，length）指定部分的内容即可，不牵扯到多个OSD之间的交互

image.png

ceph 写流程

写流程之所以比读流程复杂源于多个方面

牵扯多个OSD的写入，如何确保多副本之间一致性（PGLog）
对于单个OSD的写入，如何确保最终的一致性（Journal and FileStore）
多个副本所在的OSD，状态可能不是active ＋ clean