ceph集群 - 技术栈

概念

对象存储

[文件系统存储 ceph-fs](#文件系统存储 ceph-fs)

[块设备存储 RBD](#块设备存储 RBD)

概念

ceph是一个开源的，用c++语言编写的分布式的存储系统，它是用来存储文件数据。分布式由多台物理磁盘组成一个集群，在这个基础之上实现高可用、扩展。

ceph是一个统一的存储系统，同时提供块设备存储，文件系统存储和对象存储三种存储。

对象存储

也就是键值存储，通过接口指令（get put del）和其他的命令向对象存储上传或者下载数据。把数据作为对象，按照一定的逻辑和算法，存储到不同的硬盘上（可以是不同机器上的硬盘，依靠网络来进行互相通信）。

优点：因为使用的是硬盘组，所以它不受目录系统的影响，读写效率高

集群的扩展性很强，支持多副本存储

可以直接通过URL访问文件，所以它简单也好管理

缺点：内容变动比较大的文件不适合作为对象存储，每一次变动都要重新上传

适用于静态图片等等不需要变动的数据

文件系统存储 ceph-fs

ceph集群的存储看做是一个大的分区或者共享文件挂载到客户端的本地。客户端可以在本地直接进行操作。所以速度快，可以存储的数据类型也没有限制。它分为内核态和用户态。

内核态：mount 速度快读写快

用户态：ceph-fuse 速度慢读写稍慢

优点：成本低。随便的一台服务器都可以做。一般公司内部都会使用这种方式，比如内网云盘

缺点：读写速度和传输速度相对比较慢

块设备存储 RBD

RBD为kvm虚拟化和云服务（openstack）提供高性能和无限可扩展的存储后端。

优点：磁盘映射，raid和lvm提供磁盘空间，多个主机上的raid或者lvm组成一个逻辑上的raid和lvm，多块磁盘组成这种逻辑空间，可以并发的执行读写操作，IO效率比较高

缺点：对网络传输的要求比较高，windows无法访问linux的RDB操作

ceph的主要特点

1.统一存储：对象存储、块设备存储、文件系统存储

2.crush算法，通过算法来实现数据的寻址，保证数据完整性的校验和一致性。理论上可以支持上千个数据存储节点

3.高扩展性扩容方便

可靠性比较强副本，创建数据的时候可以对数据进行副本操作，副本数由管理定义的，副本可以跨主机保存，跨架构、机房、数据中心进行保存

4.高性能因为是多副本，读写的时候可以做到并行化处理

ceph的组件和作用

1.OSD ceph当中的OSD的守护进程，是集群的基础

主要功能：存储数据，保存副本数据，数据恢复，平衡数据分布

冗余和高可用至少要有3个OSD（三个机器上的三个物理硬盘）

2.Monitors 简称mon Monitors守护进程，用来监视ceph集群的状态，维护ceph集群的健康

OSD的状态也属于Mon的监控范围

ceph存储集群必须要有一个Monitors进程，和两个OSD进程。服务器的数量必须是奇数台

MDS 也是一个守护进程，保存ceph文件系统的元数据（文件的权限、所有者、所在组、修改时间、在ceph集群当中的inode号）

4.managers 也是作为守护进程运行，跟踪集群的运行时间的指标和ceph集群的状态（存储的利用率、性能指标和系统的负载）

5.rados 分布式存储系统，所有的存储功能都是基于RADOS实现的，它的高可用高性能也是基于RADOS来实现的。它是所有一切的底层，也是整个ceph集群的核心

RADOS有两部分组成：OSD和Monitor

6.LIBRADOS ：这是一个动态库，用来允许应用程序和RADOS系统进行交互。即通过端口进行通信

存储的概念

存储数据和object的关系

对象、块、文件系统挂载都需要object，存储的数据会被分成多个object，分成之后每一个数据都有一个object id

每个数据object的大小是可以调整的，默认是4M。object是ceph的最小存储单位

object和pg的关系

因为object数量太多了，在一个集群当中，object的数量太多，遍历和寻址速度都很慢，于是就有了pg

PG：就是归置组，placcment group 用来管理object

object通过crush算法映射到PG当中，一个pg里面可以包含多个object

pg和osd之间的关系

pg也是通过crush算法映射到osd当中去存储，如果有3个副本，每个pg会映射到三个OSD当中。副本数决定了pg映射的数量

PG和PGD的关系

pgd是存放pg的排列组合

存储池：pool

ceph的集群进行逻辑划分，设置ceph存储集群的权限，副本数、 pg的数量和算法的规则

pool是由管理员自定义，相当一个独立的空间，每个pool之间是独立的，数据也是隔离的。

原理：先把数据分散，分成每个object，每个object给一个id，每个id保存到osd中，根据object分成不同的pg组，把pg组结合起来保存到存储池，osd看要不要做副本，做副本就复制，有两个就做主从，有3个就两两复制。读数据：先到osd，看osd上的pg，在pg上找object，最后把数据读取。

ceph实验

数据流向图

实验操作

架构

192.168.233.11 admin osd mon mgr 主节点

192.168.233.12 mds osd mon mgr

192.168.233.13 mds osd mon mgr

192.168.233.80 client 客户端

步骤

1.由于它是基于主机名的，所以需要先做主机名映射

所有虚拟机都做映射

vim /etc/hosts

hostnamectl set-hostname nginx1

hostnamectl set-hostname nginx2

hostnamectl set-hostname nginx3

hostnamectl set-hostname test

2.主节点11上操作做免密通信

ssh-keygen

ssh-copy-id 192.168.233.12

ssh-copy-id 192.168.233.13

ssh-copy-id 192.168.233.80

3.所有虚拟机都操作

bash 复制代码

cat> /etc/yum.repos.d/ceph.repo <<eof
[ceph]
name=ceph
baseurl=http://mirrors.163.com/ceph/rpm-luminous/el7/x86_64/
gpgcheck=0
[ceph-noarch]
name=ceph-noarch
baseurl=http://mirrors.163.com/ceph/rpm-luminous/el7/noarch/
gpgcheck=0
eof

yum clean all && yum makecache

yum install -y ceph-deploy ceph ceph-radosgw snappy leveldb gdisk python-argparse gperftools-libs

4.回到主节点11（所有操作都必须在ceph目录下）

cd /etc/ceph/

ceph-deploy new nginx1 nginx2 nginx3 配置集群

vim ceph.conf 修改副本数

osd_pool_default_size = 2

ceph-deploy mon create-initial 节点初始化

5.三台虚拟机都添加硬盘

alias scan='echo "- - -" > /sys/class/scsi_host/host0/scan;echo "- - -" > /sys/class/scsi_host/host1/scan;echo "- - -" > /sys/class/scsi_host/host2/scan'

scan

lsblk

分区全部在主11上配置

ceph-deploy disk zap nginx1 /dev/sdb

ceph-deploy disk zap nginx2 /dev/sdb

ceph-deploy disk zap nginx3 /dev/sdb

把分区添加到osd中

ceph-deploy osd create nginx1 --data /dev/sdb

ceph-deploy osd create nginx2 --data /dev/sdb

ceph-deploy osd create nginx3 --data /dev/sdb

部署mgr

ceph-deploy mgr create nginx1 nginx2 nginx3

ceph -s 查看命令

把密钥文件传给三个节点

ceph-deploy admin nginx1 nginx2 nginx3

每台虚拟机都需要操作（三次）

cd /etc/ceph/

chmod +r ceph.client.admin.keyring

回到主节点11

ceph-deploy mds create nginx2 nginx3

创建存储数据的pool

ceph osd pool create ceph_data 128

注：少于5个osd的情况下，pg的数量等于128

5-10个osd，pg的数量设置为512

10-50个osd，pg的数量设置为4096

pg总数：默认是750个，不能超过750个

存储数据：osd * pg值

存储元数据：2*pg值

pg总数：osd * pg值 + 2*pg值 < 750

计算pg值：pg_num = （osd*100）/副本数

设定pg值的目的，通过管理较少的pg值，ceph获取数据，分配，管理数据的效率越高

pg值越多，数据分布的越多，管理就越复杂

创建存储元数据的pool

ceph osd pool create ceph_metadata 128

创建文件系统 ceph fs

ceph fs new ceph_test1 ceph_metadata ceph_data

ceph fs ls 查看

ceph fs status ceph_test1

内核态挂载

在客户端

mkdir /data1

mount -t ceph 192.168.233.11:6789:/ /data1 -o name=admin,secret=AQCVI7NmGiCvFRAApuuNAWSznO4fQG5Xd0rX5Q==

这个密码在主节点11上 cat ceph.client.admin.keyring 然后复制那个密码

写入100M文件测试

cd /data1

dd if=/dev/zero of=/data1/test1.txt bs=10M count=10

然后回到主节点11

ceph fs status ceph_test1

查看used的有没有变化，有变化才能正常使用

用户态挂载

在客户端

yum -y install ceph-fuse

免密挂载

cd /etc/ceph/

scp root@192.168.233.11:/etc/ceph/ceph.client.admin.keyring /etc/ceph

scp root@192.168.233.11:/etc/ceph/ceph.conf /etc/ceph/

mkdir /data2

ceph-fuse -m 192.168.233.11:6789 /data2

然后在/data1目录下创建文件，/data2也会同步

调整副本数

vim ceph.conf （但是需要重启生效）
命令：ceph osd pool set cephfs_data size 3