ceph文件系统 - 技术栈

ceph文件系统：高度可扩展，分布式的存储文件系统，旨在提高性能，高可靠性和高可用的对

象存储，块存储，文件系统的存储。使用分布式的算法保证数据的高可用和一致性。

ceph的组件

1、MON：ceph monitor，负责存储和维护整个ceph集群的状态信息，主要是集群的成员信息，存

储状态和配置数据等等。

确保集群的一致性
处理选举和状态的更新
处理集群内部成员的通信，包括故障转移
ceph当中mon至少要有3个节点确保高可用

2、osd：ceph object storage daemon，ceph存储系统的核心组件，负责存储数据，处理

读写请求，数据复制，数据恢复。每个osd节点管理一个或多个硬盘驱动。

存储实际的数据和副本
处理对象级别的数据操作，读、写、删
在节点付账时，进行数据恢复

3、mds：ceph metadata server，对ceph的文件系统的元数据进行管理，文件和目录的结构，文

件的权限，mds提供元数据服务。

管理集群的元数据信息
处理客户端对文件系统的请求
ceph集群中，至少要有一个mds节点

4、存储池和pg

存储池：pool，ceph存储数据对象的容器，每个存储池可以定义不同的数据冗余的策略（副本数，

默认都是3）crush映射规则等等。存储池是一个逻辑上的概念。

管理和组织数据的对象
定义数据的冗余方式，主要是开副本，3个
配置crush映射，数据如何在osd之间分布

pg：placement group，pg也是ceph当中的一个逻辑概念，用于数据分布的基本单位，创建存储

池，定义好pg的数量。pg是由一组对象（object）组成的逻辑集合，每个对象都会映射到一个或者

多个pg。作用是数据分布：数据写入集群，映射到存储池中的一个pg。crush算法决定将pg分布到

哪些osd。在ceph当中，pg和osd的数量是相关的，设置一个合理的pg数，有助于提高集群的性

能。pg数量=osd数量*100/存储池的副本数，且pg数量应该是2的幂值。以3个osd为例，pg的数量

为128为宜。pg的数量一般是osd数量的一百倍左右。

存储池和、pg和osd之间的关系

1、存储池是管理数据的基本单位，组成和配置数据存储和冗余的方式。

2、存储池中的数据被划分成多个pg，每个pg是数据分布的最小单位，pg负责对象存储的位置，通过crush算法把数据分布到osd。

3、osd是负责存储数据的基于物理设备的虚拟概念。

数据流向

crush算法，ceph自带的一种算法：

数据分布的算法，把对象分配到集群的osd节点当中。

crush算法使用hash算法来决定数据的存储位置，确保数据是均匀的分布在集群的osd上。

存储类型：

对象存储：ceph object storge，云计算的后台的存储方式一般都是用对象存储，基于apt接口，通过http(s)来对目标发起请求的方式获取数据。

块存储 RDB

文件系统 cephfs

ceph的创建

这里我们使用三台服务器完成ceph架构，另一台服务器作为客户端，具体如下

zw4：192.168.254.14，mon osd admin

zw5：192.168.254.15，mon osd

zw6：192.168.254.16，mon osd

zw7：192.168.254.17，客户端

我们这里使用的是ceph17版本：2024 17.2.4依赖于docker、python3和lvm2，所有准备好阿里

源，不要使用ubuntu官方源。

1、使用免交户方式对四台主机名都进行主机映射

2、三台集群主机安装docker

apt -y install docker.io

apt -y install lvm2

安装cephadm并初始化单节点集群（主节点zw4上执行）并编译安装

wget https://mirrors.aliyun.com/ceph/debian-17.2.4/pool/main/c/ceph/cephadm_17.2.4-1focal_amd64.deb

dkpg -i cephadm_17.2.4-1focal_amd64.deb

3、主节点上开启集群初始化

--mon-ip：指定mon进程的节点地址，先指定admin节点。
--cluster-network：集群网络的地址范围，ceph节点内部通信。
--allow-fqdn-hostname：允许ceph集群使用hostname来对节点进行标识，节点之间可以通过主机名进行通信

初始化后得到账户密码以及登录地址，可以登录ceph可视化界面

4、集群和客户端之间免密登录

主节点zw4和其他三台服务器进行ssh免密登录

主节点与另外两台集群主机进行内部ssh免密登录

5、四台主机安装ceph客户端

apt -y install ceph-common

6、添加osd

ceph添加主机名

查看当前Ceph Orchestrator 管理的所有主机信息，包括它们的状态、角色以及其他相关信息

修改mon节点的数量

把zw4、zw5和zw6添加进mon节点

7、三台集群服务器添加硬盘并刷新接口

这里使用命令行刷新，你可以选择重启

for host in /sys/class/scsi_host/host*/scan; do

echo "- - -" | sudo tee $host

done

作为ceph集群的底层的硬盘必须满足两个条件

容量必须要大于5G
不能对硬盘做任何分区和文件系统

8、添加osd硬盘

首先让ceph获取可用的节点并查看

添加osd硬盘

这时候ceph可视化界面显示我们集群搭建成功

ceph的使用

RDB存储方式

ceph RDB：rados block device，主要用于虚拟化环境和数据库。

虚拟化环境：openstack、KVM

数据库：性能高，延迟低的块存储方式

优点：

支持动态扩展
支持快照和克隆

缺点：

RBD的方式必须要创建文件系统
使用方式：在云计算的平台经常被使用，尤其是大规模存储和高性能场景。

1、在主节点上创建存储池并给存储池创建类型

rdb1：存储池的名称，不能重复
128：pg的数量
128：pgp的数量

查看存储池是否成功，ceph osd pool ls

2、在客户端zw7创建RDB镜像前，先传送主节点的配置文件和秘钥文件给客户端

在客户端上检查是否成功

3、在客户端zw7创建RDB镜像并做映射

镜像是RDB存储的基本单位，是一个虚拟的磁盘。
镜像提供了一个虚拟的块设备的接口，可以挂载的方式进行使用。
创建RDB镜像，实际上就是类似磁盘的一个分区

做映射之后，会虚拟出一个逻辑上的硬盘rbd0，接下来要创建文件系统，然后挂载才可以使用。

4、在客户端创建文件系统、挂载使用

mkfs.ext4 /dev/rbd0 #创建文件系统

mount /dev/rbd0 /data/ #挂载

创建一个100M的文件

这时候我们发现这个文件已经开始占用存储池的空间了

cephfs的存储方式

cephfs是分件系统分布存储方式，基于内核是实现共享文件的存储方式

大数据存储，文件服务器（文件共享，企业的镜像服务器）

优点：内核兼容，NFS方式也可以实现，部署速度较快。跨节点实现

缺点：配置比RBD的比较复杂，在集群群当中比较复杂。

ceph需要两个存储池：

数据池：cephfs.data，用来存储数据，这是根据osd的数量和总空间的大小，创建cephfs的时候，系统自动分配给cephfs文件系统的大小，按照一般情况是总大小的三分之一。

元数据池：cephfs.meta，保存数据的元信息。

1、在主节点上创建cephfs的存储池

可以看出有两个cephfs存储池

查看cephfs存储池的名称和状态

2、在客户端挂载使用

首先在客户端上获取密钥对，ceph auth get-key client.admin

挂载

创建一个100M的文件

这时候我们发现这个文件已经开始占用存储池的空间了

ceph的nfs方式

1、在主节点创建一个nfs服务和一个池

ceph orch apply nfs nfs-share

ceph osd pool create nfs-pools

查看集群当中所有的存储池，ceph osd lspools

2、创建一个nfs的高可用名字是my-nfs，分别运行在zw4，再加入zw5和zw6

ceph orch apply nfs my-nfs nfs-pools --placement="zw5,zw6"

回到ceph的可视化界面，创建NFS

3、客户端挂载使用

mount -t ceph 192.168.254.14:6789,192.168.254.15:6789,192.168.254.16:6789:/ /data2 -o name=admin,secret=AQBTVXdnKEBBKRAA4pFJAA5oG4FwuEIkONCaNg==

可以发现使用nfs的挂载目录和cephfs数据池挂载的大小和可用空间都一样，是因为通过nfs的挂载

方式，依然使用的cephfs.data的数据空间，文件实际上还是存储在cephfs.data的数据池当中。

ceph object storge 对象存储

云计算的后台的存储方式一般都是用对象存储。

对象存储：高扩展，处理文件的级别可以达到PB级别。

缺点：如果数据量不是特别的巨大，一般不需要该场景。

总结

ceph需要使用分布式文件系统的企业一般都是需要存储海量数据，以及保证数据的高可用非常严谨的场景。ceph的存储方式的数据流向：主要包括存储池、pg和osd

创建存储池，分配pg

数据按照对象分配给pg

pg再数据包分配到osd