Ceph(分布式文件系统)

1、存储基础

单机存储设备

●DAS（直接附加存储，是直接接到计算机的主板总线上去的存储）

IDE、SATA、SCSI、SAS、USB 接口的磁盘

所谓接口就是一种存储设备驱动下的磁盘设备，提供块级别的存储

●NAS（网络附加存储，是通过网络附加到当前主机文件系统之上的存储）

NFS、CIFS、FTP
文件系统级别的存储，本身就是一个做好的文件系统，通过nfs接口在用户空间输出后，客户端基于内核模块与远程主机进行网络通信，把它转为好像本地文件系统一样来使用，这种存储服务是没办法对它再一次格式化创建文件系统块的

●SAN（存储区域网络）

SCSI协议（只是用来传输数据的存取操作，物理层使用SCSI线缆来传输）、FCSAN（物理层使用光纤来传输）、iSCSI（物理层使用以太网来传输）

也是一种网络存储，但不同之处在于SAN提供给客户端主机使用的接口是块级别的存储

与DAS的区别是SAN是使用网线连接到计算机的
单机存储的问题

●存储处理能力不足

传统的IDE的IO值是100次/秒，SATA固态磁盘500次/秒，固态硬盘达到2000-4000次/秒。即使磁盘的IO能力再大数十倍，也不够抗住网站访问高峰期数十万、数百万甚至上亿用户的同时访问，这同时还要受到主机网络IO能力的限制。

●存储空间能力不足

单块磁盘的容量再大，也无法满足用户的正常访问所需的数据容量限制。

●单点故障问题

单机存储数据存在单点故障问题
商业存储解决方案

EMC、NetAPP、IBM、DELL、华为、浪潮
分布式存储（软件定义的存储 SDS）

Ceph、TFS、FastDFS、MooseFS（MFS）、HDFS、GlusterFS（GFS）

存储机制会把数据分散存储到多个节点上，具有高扩展性、高性能、高可用性等优点。

分布式存储的类型【重中之重】

●块存储

一对一，只能被一个主机挂载使用，数据以块为单位进行存储，典型代表：硬盘（适用于容器或虚拟机存储卷分配、日志存储、文件存储）

●文件存储

一对多，能被多个主机同时挂载/传输使用，数据以文件的形式存储的（元数据和实际数据是分开存储），并且有目录的层级关系，典型代表：NFS（适用于目录结构的存储、日志存储）

●对象存储

一对多，能被多个主机/应用通过API接口访问使用，数据以文件的形式存储，一个文件即一个对象，元数据和实际数据是存储在一起的。（适用图片存储、视频存储）

文件是扁平化方式存储的，没有目录的层级关系，典型代表：OSS S3

2、Ceph 简介

Ceph使用C++语言开发，是一个开放、自我修复和自我管理的开源分布式存储系统。具有高扩展性、高性能、高可靠性的优点。

Ceph目前已得到众多云计算厂商的支持并被广泛应用。RedHat及OpenStack，Kubernetes都可与Ceph整合以支持虚拟机镜像的后端存储。

粗略估计，我国70%---80%的云平台都将Ceph作为底层的存储平台，由此可见Ceph俨然成为了开源云平台的标配。目前国内使用Ceph搭建分布式存储系统较为成功的企业有华为、阿里、中兴、华三、浪潮、中国移动、网易、乐视、360、星辰天合存储、杉岩数据等。

3、Ceph 优势

●高扩展性：去中心化，支持使用普通X86服务器，支持上千个存储节点的规模，支持TB到EB级的扩展。

●高可靠性：没有单点故障，多数据副本，自动管理，自动修复。

●高性能：摒弃了传统的集中式存储元数据寻址的方案，采用 CRUSH 算法，数据分布均衡，并行度高。

●功能强大：Ceph是个大一统的存储系统，集块存储接口（RBD）、文件存储接口（CephFS）、对象存储接口（RadosGW）于一身，因而适用于不同的应用场景。

Ceph 分布式存储系统，具有高性能、高扩展性、高可用性等特点，还集块/文件/对象存储功能于一身

4、Ceph 架构【重中之重】

自下向上，可以将Ceph系统分为四个层次

●RADOS 基础存储系统【统一存储池 】

提供存储能力的。Ceph中一切都是以对象形式存储，RADOS就是负责存储这些对象的，并保证数据的一致性和可靠性。

Reliab1e，Autonomic，Distributed object store，即可靠的、自动化的、分布式的对象存储

RADOS是Ceph最底层的功能模块，是一个无限可扩容的对象存储服务，能将文件拆解成无数个对象（碎片）存放在硬盘中，大大提高了数据的稳定性。它主要由OSD和Monitor两个组件组成，OSD和Monitor都可以部署在多台服务器中，这就是ceph分布式的由来，高扩展性的由来。

●LIBRADOS 基础库

Librados提供了与RADOS进行交互的方式，并向上层应用提供Ceph服务的API接口，因此上层的RBD、RGW和CephFS都是通过Librados访问的，目前提供PHP、Ruby、Java、Python、Go、C和C++支持，以便直接基于RADOS（而不是整个Ceph）进行客户端应用开发。

●高层应用接口【LibRADOS对象访问接口】

提供存储接口给客户端使用的，Ceph默认提供三个接口：RBD块存储接口、CephFS文件存储接口、RGW对象存储接口。还支持用户使用JAVA/Python/C等编程语言二次开发自定义的接口

包括了三个部分

1.对象存储接口 RGW（RADOS Gateway）【对象存储，通过API获取文件对象】

网关接口，基于Librados开发的对象存储系统，提供S3和Swift兼容的RESTful API接口。

2.块存储接口 RBD（Reliable Block Device）【裸磁盘】

基于Librados提供块设备接口，主要用于Host/VM。

3.文件存储接口 CephFS（Ceph File System）【文件系统，类似Linux的挂载磁盘】

Ceph文件系统，提供了一个符合POSIX标准的文件系统，它使用Ceph存储集群在文件系统上存储用户数据。基于Librados提供的分布式文件系统接口。

●应用层【客户机】

使用存储的读写数据的终端

基于高层接口或者基础库Librados开发出来的各种APP，或者Host、VM等诸多客户端

4、Ceph 核心组件【重中之重】

Ceph是一个对象式存储系统，它把每一个待管理的数据流（如文件等数据）切分为一到多个固定大小（默认4兆）的对象数据（Object），并以其为原子单元（原子是构成元素的最小单元）完成数据的读写。

Ceph 组件

OSD 负责存储数据，一般一个磁盘对应一个OSD，响应客户端的读写请求

Monitor(mon) Ceph监视器，负责保存OSD的元数据，维护Ceph集群状态的各种图表视图（监控全局状态），管理客户端的认证于授权

Manager(mgr) 负责跟踪集群状态和监控指标，暴露接口给监控软件获取监控指标数据

MDS 负责保存CpehFS文件系统的元数据，仅在使用CephFS接口功能的时候使用

PG 可理解成保存OSD位置的索引，一个PG可以包含多个数据对象，一个数据对象只能属于一个PG

Pool 数据池，可理解成一个命名空间，一个Pool里包含多个PG。不同Pool的PG可以重名

●OSD（Object Storage Daemon，守护进程 ceph-osd）

是负责物理存储的进程，一般配置成和磁盘一一对应，一块磁盘启动一个OSD进程。主要功能是存储数据、复制数据、平衡数据、恢复数据，以及与其它OSD间进行心跳检查，负责响应客户端请求返回具体数据的进程等。通常至少需要3个OSD来实现冗余和高可用性。

●PG（Placement Group 归置组）

PG 是一个虚拟的概念而已，物理上不真实存在。它在数据寻址时类似于数据库中的索引：Ceph 先将每个对象数据通过HASH算法固定映射到一个 PG 中，然后将 PG 通过 CRUSH 算法映射到 OSD。

●Pool

Pool 是存储对象的逻辑分区，它起到 namespace（命名空间，作用大致相当于可以存在两个一样名字的文件不至于冲突）的作用。每个 Pool 包含一定数量（可配置）的 PG。Pool 可以做故障隔离域，根据不同的用户场景统一进行隔离。

Pool中数据保存方式支持两种类型

●多副本（replicated）：类似 raid1，一个对象数据默认保存 3 个副本，放在不同的 OSD

●纠删码（Erasure Code）：类似 raid5，对 CPU 消耗稍大，但是节约磁盘空间，对象数据保存只有 1 个副本。由于Ceph部分功能不支持纠删码池，此类型存储池使用不多
Pool、PG 和 OSD 的关系

一个Pool里有很多个PG；一个PG里包含一堆对象，一个对象只能属于一个PG；PG有主从之分，一个PG分布在不同的OSD上（针对多副本类型）

●Monitor（守护进程 ceph-mon）

用来保存OSD的元数据。负责维护集群状态的映射视图（Cluster Map：OSD Map、Monitor Map、PG Map 和 CRUSH Map），维护展示集群状态的各种图表，管理集群客户端认证与授权。一个Ceph集群通常至少需要 3 或 5 个（奇数个）Monitor 节点才能实现冗余和高可用性，它们通过 Paxos 协议实现节点间的同步数据。（monitor用于保存osd元数据，维护集群状态，管理用户认证）

●Manager（守护进程 ceph-mgr）
负责跟踪运行时指标和 Ceph 集群的当前状态，包括存储利用率、当前性能指标和系统负载。为外部监视和管理系统提供额外的监视和接口，例如 zabbix、prometheus、 cephmetrics 等。一个 Ceph 集群通常至少需要 2 个 mgr 节点实现高可用性，基于 raft 协议实现节点间的信息同步。（manager负责收集状态并且开放用于监控）

●MDS（Metadata Server，守护进程 ceph-mds）

是 CephFS 服务依赖的元数据服务。负责保存文件系统的元数据，管理目录结构。对象存储和块设备存储不需要元数据服务（文件存储需要数据与元数据分开存储）；如果不使用 CephFS 可以不安装。（mds用于提供文件存储功能【类似linux的挂载磁盘】，在文件存储时存储元数据）

5、OSD 存储后端

OSD 有两种方式管理它们存储的数据。在 Luminous 12.2.z 及以后的发行版中，默认（也是推荐的）后端是 BlueStore。在 Luminous 发布之前，默认是 FileStore，也是唯一的选项。

●Filestore

FileStore是在Ceph中存储对象的一个遗留方法。它依赖于一个标准文件系统（只能是XFS)，并结合一个键/值数据库（传统上是LevelDB，现在BlueStore是RocksDB），用于保存和管理元数据。

FileStore经过了良好的测试，在生产中得到了广泛的应用。然而，由于它的总体设计和对传统文件系统的依赖，使得它在性能上存在许多不足。

●Bluestore

BlueStore是一个特殊用途的存储后端，专门为OSD工作负载管理磁盘上的数据而设计。BlueStore 的设计是基于十年来支持和管理 Filestore 的经验。BlueStore 相较于 Filestore，具有更好的读写性能和安全性。

BlueStore 的主要功能包括

BlueStore直接管理存储设备，即直接使用原始块设备或分区管理磁盘上的数据。这样就避免了抽象层的介入（例如本地文件系统，如XFS)，因为抽象层会限制性能或增加复杂性。

BlueStore使用RocksDB进行元数据管理。RocksDB的键/值数据库是嵌入式的，以便管理内部元数据，包括将对象名称映射到磁盘上的块位置。

写入BlueStore的所有数据和元数据都受一个或多个校验和的保护。未经验证，不会从磁盘读取或返回给用户任何数据或元数据。

支持内联压缩。数据在写入磁盘之前可以选择性地进行压缩。

支持多设备元数据分层。BlueStore允许将其内部日志（WAL预写日志）写入单独的高速设备（如SSD、NVMe或NVDIMM)，以提高性能。如果有大量更快的可用存储，则可以将内部元数据存储在更快的设备上。

支持高效的写时复制。RBD和CephFS快照依赖于在BlueStore中有效实现的即写即复制克隆机制。这将为常规快照和擦除编码池（依赖克隆实现高效的两阶段提交）带来高效的I/O。

6、Ceph 数据的存储过程【重中之重重中之重】

1.客户端从 mon 获取最新的 Cluster Map

2.在 Ceph 中，一切皆对象。Ceph 存储的数据都会被切分成为一到多个固定大小的对象（Object）。Object size 大小可以由管理员调整，通常为 2M 或 4M。

每个对象都会有一个唯一的 OID，由 ino 与 ono 组成：

●ino ：即是文件的 FileID，用于在全局唯一标识每一个文件

●ono ：则是分片的编号

比如：一个文件 FileID 为 A，它被切成了两个对象，一个对象编号0，另一个编号1，那么这两个文件的 oid 则为 A0 与 A1。

OID 的好处是可以唯一标示每个不同的对象，并且存储了对象与文件的从属关系。由于 Ceph 的所有数据都虚拟成了整齐划一的对象，所以在读写时效率都会比较高。

3.通过对 OID 使用 HASH 算法得到一个16进制的特征码，用特征码与 Pool 中的 PG 总数取余，得到的序号则是 PGID 。

即 Pool_ID +HASH(OID) % PG_NUM 得到 PGID

4.PG 会根据设置的副本数量进行复制，通过对 PGID 使用 CRUSH 算法算出 PG 中目标主和次 OSD 的 ID，存储到不同的 OSD 节点上（其实是把 PG 中的所有对象存储到 OSD 上）。

即通过 CRUSH(PGID) 得到将 PG 中的数据存储到各个 OSD 组中

CRUSH 是 Ceph 使用的数据分布算法，类似一致性哈希，让数据分配到预期的地方。

简而言之

文件默认会被按照4M大小进行分片成一个或多个数据对象(object)

每个object都有一个oid（由文件ID(ino)和分片编号(ono)组成），通过对oid使用hash算法得到一个16进制的数值，再除以Pool里的PG总数取余，得到object的pgid(Pood_ID+pgid)

通过对pgid使用CRUSH算法得到PG对应的OSD的ID（如有多副本，则是主从的OSD的ID）

将object的数据存储到对应的OSD上

7、Ceph 版本发行生命周期

Ceph从Nautilus版本（14.2.0）开始，每年都会有一个新的稳定版发行，预计是每年的3月份发布，每年的新版本都会起一个新的名称（例如，"Mimic"）和一个主版本号（例如，13代表Mimic，因为"M"是字母表的第13个字母）。

版本号的格式为 x.y.z，x 表示发布周期（例如，13 代表 Mimic，17 代表 Quincy），y 表示发布版本类型，即

● x.0.z ：y等于 0，表示开发版本

● x.1.z ：y等于 1，表示发布候选版本（用于测试集群）

● x.2.z ：y等于 2，表示稳定/错误修复版本（针对用户）

L与N两个版本较为常用

8、Ceph 集群部署

目前 Ceph 官方提供很多种部署 Ceph 集群的方法，常用的分别是 ceph-deploy，cephadm 和二进制

ceph-deploy ：一个集群自动化部署工具，使用较久，成熟稳定，被很多自动化工具所集成，可用于生产部署。（Octopus之后的版本若使用ceph-deploy需要改写代码）

cephadm ：从 Octopus 和较新的版本版本后使用 cephadm 来部署 ceph 集群，使用容器和 systemd 安装和管理 Ceph 集群。目前不建议用于生产环境。

二进制：手动部署，一步步部署 Ceph 集群，支持较多定制化和了解部署细节，安装难度较大。

-------------------- 基于 ceph-deploy 部署 Ceph 集群 --------------------

Ceph 生产环境推荐

1、存储集群全采用万兆网络（存在大量同步）

2、集群网络（cluster-network，用于集群内部通讯）与公共网络（public-network，用于外部访问Ceph集群）分离（避免内网同步影响外网）

3、mon、mds 与 osd 分离部署在不同主机上避免ALL IN BOOM（测试环境中可以让一台主机节点运行多个组件）

4、OSD 使用 SATA 亦可

5、根据容量规划集群

6、至强E5 2620 V3或以上 CPU，64GB或更高内存

7、集群主机分散部署，避免同一机柜的电源或者网络故障

Ceph 环境规划
主机名 Public网络 Cluster网络角色

admin 192.168.80.20 admin（管理节点负责集群整体部署）、client

node01 192.168.80.101 192.168.100.101 mon、mgr、osd（/dev/sdb、/dev/sdc、/dev/sdd）

node02 192.168.80.102 192.168.100.102 mon、mgr、osd（/dev/sdb、/dev/sdc、/dev/sdd）

node03 192.168.80.103 192.168.100.103 mon、osd（/dev/sdb、/dev/sdc、/dev/sdd）

client 192.168.80.107 client

环境准备

可选步骤：创建 Ceph 的管理用户
bash 复制代码
useradd cephadm
passwd cephadm

visudo
cephadm ALL=(root) NOPASSWD:ALL

1、关闭 selinux 与防火墙
bash 复制代码
systemctl disable --now firewalld
setenforce 0
sed -i 's/enforcing/disabled/' /etc/selinux/config

2、根据规划设置主机名
bash 复制代码
hostnamectl set-hostname admin
bash 复制代码
hostnamectl set-hostname node01
bash 复制代码
hostnamectl set-hostname node02
bash 复制代码
hostnamectl set-hostname node03
bash 复制代码
hostnamectl set-hostname client

3、配置 hosts 解析

bash 复制代码

cat >> /etc/hosts << EOF
192.168.80.20 admin
192.168.80.101 node01
192.168.80.102 node02
192.168.80.103 node03
192.168.80.107 client
EOF

4、安装常用软件和依赖包

bash 复制代码

yum -y install epel-release
yum -y install yum-plugin-priorities yum-utils ntpdate python-setuptools python-pip gcc gcc-c++ autoconf libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel libxml2 libxml2-devel zlib zlib-devel glibc glibc-devel glib2 glib2-devel bzip2 bzip2-devel zip unzip ncurses ncurses-devel curl curl-devel e2fsprogs e2fsprogs-devel krb5-devel libidn libidn-devel openssl openssh openssl-devel nss_ldap openldap openldap-devel openldap-clients openldap-servers libxslt-devel libevent-devel ntp libtool-ltdl bison libtool vim-enhanced python wget lsof iptraf strace lrzsz kernel-devel kernel-headers pam-devel tcl tk cmake ncurses-devel bison setuptool popt-devel net-snmp screen perl-devel pcre-devel net-snmp screen tcpdump rsync sysstat man iptables sudo libconfig git bind-utils tmux elinks numactl iftop bwm-ng net-tools expect snappy leveldb gdisk python-argparse gperftools-libs conntrack ipset jq libseccomp socat chrony sshpass

5、在 admin 管理节点配置 ssh 免密登录所有节点

bash 复制代码

可以省略这步，会在下方命令中带上参数达到相同效果

vim /etc/ssh/ssh_config
    取消注释 省去ssh第一次连接时的确认操作
    StrictHostKeyChecking no

bash 复制代码

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
ssh-keygen -t rsa #缩写 一路回车

sshpass -p 'admin主机的密码' ssh-copy-id -o StrictHostKeyChecking=no root@admin
sshpass -p 'node01主机的密码' ssh-copy-id -o StrictHostKeyChecking=no root@node01
sshpass -p 'node02主机的密码' ssh-copy-id -o StrictHostKeyChecking=no root@node02
sshpass -p 'node03主机的密码' ssh-copy-id -o StrictHostKeyChecking=no root@node03
#若上面ssh配置文件中没有设置StrictHostKeyChecking=no，也可以在命令行中指出。若设置可忽略

6、配置时间同步

可以用NTP完成时间同步，本次实验使用chronyd完成时间同步

bash 复制代码

systemctl enable --now chronyd
timedatectl set-ntp true                      #开启 NTP
timedatectl set-timezone Asia/Shanghai        #设置时区
chronyc -a makestep                           #强制同步下系统时钟
timedatectl status                            #查看时间同步状态
chronyc sources -v                            #查看 ntp 源服务器信息
timedatectl set-local-rtc 0                   #将当前的UTC时间写入硬件时钟

·············································································

systemctl enable --now chronyd
timedatectl set-ntp true
timedatectl set-timezone Asia/Shanghai
chronyc -a makestep
timedatectl status
chronyc sources -v
timedatectl set-local-rtc 0

#重启依赖于系统时间的服务

bash 复制代码

systemctl restart rsyslog
systemctl restart crond

查看使用的时间服务器。生产环境中一般使用服务器集群内部服务器做时间源，其他服务器向其同步时间。

bash 复制代码

vim /etc/chrony.conf

#关闭无关服务（邮箱服务）

bash 复制代码

systemctl disable --now postfix

7、配置 Ceph yum源（由于下面在各节点上手动yum安装 Ceph 软件包）
bash 复制代码
wget https://download.ceph.com/rpm-nautilus/el7/noarch/ceph-release-1-1.el7.noarch.rpm --no-check-certificate

rpm -ivh ceph-release-1-1.el7.noarch.rpm --force

8、执行完上面所有的操作之后重启所有主机（可选）
bash 复制代码
sync
reboot

9.为node1/2/3配置内网同步用的第二张网卡，并且添加磁盘用作osd

设置网卡

bash 复制代码

cp /etc/sysconfig/network-scripts/ifcfg-ens33 /etc/sysconfig/network-scripts/ifcfg-ens36
vim /etc/sysconfig/network-scripts/ifcfg-ens36
    NAME="ens36"
    DEVICE="ens36"
    #UUID=    此项可注释可不注释 
    IPADDR=192.168.100.10X
        根据架构图中预先分配的IP地址进行设置
        node1 192.168.100.101 
        node2 192.168.100.102
        node3 192.168.100.103
    #GATEWAY= 此项可注释可不注释
    #DNS1=    此项可注释可不注释

systemctl restart network

bash 复制代码

ifconfig
确认，建议反复确认，实测双网卡会因为NetworkManager服务冲突导致第二章网卡过几秒掉IP

若IP消失，关闭NetworkManager服务
systemctl stop NetworkManager
systemctl disable NetworkManager
systemctl restart network

在线刷新磁盘（开机时添加磁盘需要刷新。如果直接重启则不需要）

bash 复制代码

echo "- - -" > /sys/class/scsi_host/host0/scan
echo "- - -" > /sys/class/scsi_host/host1/scan
echo "- - -" > /sys/class/scsi_host/host2/scan

fdisk -l
或
lsblk

部署 Ceph 集群

1、为所有节点都创建一个 Ceph 工作目录，后续的工作都在该目录下进行
bash 复制代码
mkdir -p /etc/ceph

2、安装 ceph-deploy 部署工具（只需要admin节点）
bash 复制代码
cd /etc/ceph
yum install -y ceph-deploy

ceph-deploy --version

3、在admin节点为其它节点自动安装 Ceph 软件包（串行较慢） / 或是在所有节点上手动并行安装

ceph-deploy 2.0.1 默认部署的是 mimic 版的 Ceph，若想安装其他版本的 Ceph，可以用 --release 手动指定版本（自动安装较慢可以跳过使用手动安装）
bash 复制代码
cd /etc/ceph
ceph-deploy install --release nautilus node0{1..3} admin
#--release nautilus安装nautilus版本 在node01/2/3 admin节点上安装
ceph-deploy install 本质就是用python在指定的主机上一台台的执行下面的命令（自动安装较慢可以跳过使用手动安装）
bash 复制代码
yum clean all
yum -y install epel-release
yum -y install yum-plugin-priorities
yum -y install ceph-release ceph ceph-radosgw
也可采用手动安装 Ceph 包方式，在其它节点上执行下面的命令将 Ceph 的安装包都部署上：

由于准备阶段已经配置 Ceph yum源（国外的，此处sed替换国内源），此处直接yum安装即可
bash 复制代码
sed -i 's#download.ceph.com#mirrors.tuna.tsinghua.edu.cn/ceph#' /etc/yum.repos.d/ceph.repo
yum install -y ceph-mon ceph-radosgw ceph-mds ceph-mgr ceph-osd ceph-common ceph

4、生成初始配置

在管理节点运行下述命令，告诉 ceph-deploy 哪些是 mon 监控节点
bash 复制代码
cd /etc/ceph
ceph-deploy new --public-network 192.168.80.0/24 --cluster-network 192.168.100.0/24 node01 node02 node03
#指定内网 外网 节点
命令执行成功后会在 /etc/ceph 下生成配置文件
bash 复制代码
ls /etc/ceph

ceph.conf                   #ceph的配置文件
ceph-deploy-ceph.log        #monitor的日志
ceph.mon.keyring            #monitor的密钥环文件

5、在管理节点初始化 mon 节点

bash 复制代码

cd /etc/ceph
ceph-deploy mon create node01 node02 node03
#创建 mon 节点，由于 monitor 使用 Paxos 算法，其高可用集群节点数量要求为大于等于 3 的奇数台

ceph-deploy --overwrite-conf mon create-initial
#配置初始化 mon 节点，并向所有节点同步配置
# --overwrite-conf 参数用于表示强制覆盖配置文件

ceph-deploy gatherkeys node01
#可选操作，向 node01 节点收集所有密钥

命令执行成功后会在 /etc/ceph 下生成配置文件

bash 复制代码

ls /etc/ceph

ceph.conf
ceph-deploy-ceph.log
ceph.mon.keyring

ceph.bootstrap-mds.keyring            #引导启动 mds 的密钥文件
ceph.bootstrap-mgr.keyring            #引导启动 mgr 的密钥文件
ceph.bootstrap-osd.keyring            #引导启动 osd 的密钥文件
ceph.bootstrap-rgw.keyring            #引导启动 rgw 的密钥文件
ceph.client.admin.keyring             #ceph客户端和管理端通信的认证密钥，拥有ceph集群的所有权限

查看ceph配置文件

在 mon 节点上查看自动开启的 mon 进程

bash 复制代码

ps aux | grep ceph

root        3454  0.0  0.2 189264  9224 ?        Ss   21:28   0:00 /usr/bin/python2.7 /usr/bin/ceph-crash
ceph        3877  0.0  0.7 502984 30020 ?        Ssl  21:34   0:00 /usr/bin/ceph-mon -f --cluster ceph --id node02 --setuser ceph --setgroup ceph
root       12705  0.0  0.0 112828   980 pts/0    S+   21:41   0:00 grep --color=auto ceph

在管理节点查看 Ceph 集群状态

bash 复制代码

cd /etc/ceph
ceph -s


  cluster:
    id:     994d8596-5d3f-40fa-844d-8e833fb5bf73
    health: HEALTH_WARN
            mons are allowing insecure global_id reclaim

  services:
    mon: 3 daemons, quorum node01,node02,node03 (age 9m)
    mgr: no daemons active
    osd: 0 osds: 0 up, 0 in

  data:
    pools:   0 pools, 0 pgs
    objects: 0 objects, 0 B
    usage:   0 B used, 0 B / 0 B avail
    pgs:

查看 mon 集群选举的情况

bash 复制代码

ceph quorum_status --format json-pretty | grep leader
    "quorum_leader_name": "node01",

扩容 mon 节点

bash 复制代码

ceph-deploy mon add <节点名称>

6、部署能够管理 Ceph 集群的节点（可选）

之前都是在admin上管理节点。若想在node上管理节点

#可实现在各个节点执行 ceph 命令管理集群
bash 复制代码
cd /etc/ceph
ceph-deploy --overwrite-conf config push node01 node02 node03
#向所有 mon 节点同步配置，确保所有 mon 节点上的 ceph.conf 内容必须一致

ceph-deploy admin node01 node02 node03
#本质就是把 ceph.client.admin.keyring 集群认证文件拷贝到各个节点
#在 mon 节点上查看
bash 复制代码
ls /etc/ceph
ceph.client.admin.keyring  ceph.conf  rbdmap  tmpr8tzyc

cd /etc/ceph
ceph -s

7、部署 osd 存储节点

主机添加完硬盘后不要分区，直接使用。

bash 复制代码

lsblk

#如果是利旧的硬盘，则需要先擦净（删除分区表）磁盘（可选，无数据的新硬盘可不做）

bash 复制代码

cd /etc/ceph
ceph-deploy disk zap node01 /dev/sdb
ceph-deploy disk zap node02 /dev/sdb
ceph-deploy disk zap node03 /dev/sdb

#在admin主机添加 osd 节点

bash 复制代码

ceph-deploy --overwrite-conf osd create node01 --data /dev/sdb
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdb
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdb

ceph-deploy --overwrite-conf osd create node01 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdd

node1/2/3 lsblk可以看到已经挂载

查看 ceph 集群状态

bash 复制代码

ceph -s
查看 ceph 集群状态

  cluster:
    id:     994d8596-5d3f-40fa-844d-8e833fb5bf73
    health: HEALTH_WARN
            no active mgr
            mons are allowing insecure global_id reclaim

  services:
    mon: 3 daemons, quorum node01,node02,node03 (age 56m)
    mgr: no daemons active
    osd: 3 osds: 3 up (since 5s), 3 in (since 5s)

  data:
    pools:   0 pools, 0 pgs
    objects: 0 objects, 0 B
    usage:   0 B used, 0 B / 0 B avail
    pgs:

bash 复制代码

ceph osd stat 
查看osd状态

    3 osds: 3 up (since 111s), 3 in (since 111s); epoch: e13

bash 复制代码

ceph osd tree 
树状查看

ID CLASS WEIGHT  TYPE NAME       STATUS REWEIGHT PRI-AFF
-1       0.05846 root default
-3       0.01949     host node01
 0   hdd 0.01949         osd.0       up  1.00000 1.00000
-5       0.01949     host node02
 1   hdd 0.01949         osd.1       up  1.00000 1.00000
-7       0.01949     host node03
 2   hdd 0.01949         osd.2       up  1.00000 1.00000

bash 复制代码

rados df
查看osd状态

POOL_NAME USED OBJECTS CLONES COPIES MISSING_ON_PRIMARY UNFOUND DEGRADED RD_OPS RD WR_OPS WR USED COMPR UNDER COMPR
total_objects    0
total_used       0 B
total_avail      0 B
total_space      0 B

bash 复制代码

在admin端查看ceph服务启动情况 
ssh root@node01 systemctl status ceph-osd@0
ssh root@node02 systemctl status ceph-osd@1
ssh root@node03 systemctl status ceph-osd@2

bash 复制代码

ceph osd status
查看 osd 状态，需部署 mgr 后才能执行

bash 复制代码

ceph osd df
查看 osd 容量，需部署 mgr 后才能执行

扩容 osd 节点

bash 复制代码

cd /etc/ceph
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdc
ceph-deploy --overwrite-conf osd create node01 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node02 --data /dev/sdd
ceph-deploy --overwrite-conf osd create node03 --data /dev/sdd

添加 OSD 中会涉及到 PG 的迁移，由于此时集群并没有数据，因此 health 的状态很快就变成 OK，如果在生产环境中添加节点则会涉及到大量的数据的迁移。

8、部署 mgr 节点

ceph-mgr守护进程以Active/Standby模式运行，可确保在Active节点或其ceph-mgr守护进程故障时，其中的一个Standby实例可以在不中断服务的情况下接管其任务。根据官方的架构原则，mgr至少要有两个节点来进行工作。

bash 复制代码

在admin节点
cd /etc/ceph
ceph-deploy mgr create node01 node02
ceph -s

解决 HEALTH_WARN 问题：mons are allowing insecure global_id reclaim问题：

bash 复制代码

禁用不安全模式
ceph config set mon auth_allow_insecure_global_id_reclaim false

扩容 mgr 节点

bash 复制代码

ceph-deploy mgr create <节点名称>

9、开启监控模块（在任意一台安装了mgr的服务器上）（图形化）

在 ceph-mgr Active节点执行命令开启（在任意一台安装了mgr的服务器上）
bash 复制代码
ceph -s | grep mgr
        mgr: node01(active, since 6m), standbys: node02
#保证mgr开启 （不一定要主节点安装，能够开启mgr的节点即可）

#在node01上执行
yum install -y ceph-mgr-dashboard

#查看安装的模块
cd /etc/ceph
ceph mgr module ls | grep dashboard
开启 dashboard 模块（在任意一台安装了mgr的服务器上）
bash 复制代码
ceph mgr module enable dashboard --force
禁用 dashboard 的 ssl 功能（不然要证书才能访问）（在任意一台安装了mgr的服务器上）
bash 复制代码
ceph config set mgr mgr/dashboard/ssl false
配置 dashboard 监听的地址和端口（任意可管理ceph集群的节点上都能操作）
bash 复制代码
ceph config set mgr mgr/dashboard/server_addr 0.0.0.0
ceph config set mgr mgr/dashboard/server_port 8000
重启 dashboard（在任意一台安装了mgr的服务器上）
bash 复制代码
ceph mgr module disable dashboard
ceph mgr module enable dashboard --force
确认访问 dashboard 的 url（在任意一台安装了mgr的服务器上）
bash 复制代码
ceph mgr services

{
    "dashboard": "http://node01:8000/"
}
设置 dashboard 账户以及密码（在任意一台安装了mgr的服务器上）
bash 复制代码
echo "12345678" > dashboard_passwd.txt
ceph dashboard set-login-credentials admin -i dashboard_passwd.txt
老版本
  或
新版本
echo "12345678" > dashboard_passwd.txt
ceph dashboard ac-user-create admin administrator -i dashboard_passwd.txt
浏览器访问：http://192.168.80.101:8000 ，账号密码为 admin/12345678

资源池 Pool 管理

上面我们已经完成了 Ceph 集群的部署，但是我们如何向 Ceph 中存储数据呢？首先我们需要在 Ceph 中定义一个 Pool 资源池。Pool 是 Ceph 中存储 Object 对象抽象概念。我们可以将其理解为 Ceph 存储上划分的逻辑分区，Pool 由多个 PG 组成；而 PG 通过 CRUSH 算法映射到不同的 OSD 上；同时 Pool 可以设置副本 size 大小，默认副本数量为 3。

Ceph 客户端向 monitor 请求集群的状态，并向 Pool 中写入数据，数据根据 PGs 的数量，通过 CRUSH 算法将其映射到不同的 OSD 节点上，实现数据的存储。这里我们可以把 Pool 理解为存储 Object 数据的逻辑单元；当然，当前集群没有资源池，因此需要进行定义。

创建一个 Pool 资源池，其名字为 mypool，PGs 数量设置为 64，设置 PGs 的同时还需要设置 PGP（通常PGs和PGP的值是相同的）

PG (Placement Group)，pg 是一个虚拟的概念，用于存放 object，PGP(Placement Group for Placement purpose)，相当于是 pg 存放的一种 osd 排列组合

（pg pgp设置相同官方计算器：old.ceph.com/pgcalc）
bash 复制代码
cd /etc/ceph
ceph osd pool create mypool 64 64
查看集群 Pool 信息
bash 复制代码
ceph osd pool ls    或    rados lspools
ceph osd lspools
查看资源池副本的数量
bash 复制代码
ceph osd pool get mypool size
查看 PG 和 PGP 数量
bash 复制代码
ceph osd pool get mypool pg_num
ceph osd pool get mypool pgp_num
修改 pg_num 和 pgp_num 的数量为 128（PG与pgp一起修改）
bash 复制代码
ceph osd pool set mypool pg_num 128
ceph osd pool set mypool pgp_num 128

ceph osd pool get mypool pg_num
ceph osd pool get mypool pgp_num
修改 Pool 副本数量为 2
bash 复制代码
ceph osd pool set mypool size 2

ceph osd pool get mypool size
修改默认副本数为 2
bash 复制代码
vim ceph.conf

......
osd_pool_default_size = 2

ceph-deploy --overwrite-conf config push node01 node02 node03

删除 Pool 资源池

1）删除存储池命令存在数据丢失的风险，Ceph 默认禁止此类操作，需要管理员先在 ceph.conf 配置文件中开启支持删除存储池的操作
bash 复制代码
vim ceph.conf
......
[mon]
mon allow pool delete = true
2）推送 ceph.conf 配置文件给所有 mon 节点
bash 复制代码
ceph-deploy --overwrite-conf config push node01 node02 node03
3）所有 mon 节点重启 ceph-mon 服务
bash 复制代码
systemctl restart ceph-mon.target
4）执行删除 Pool 命令
bash 复制代码
ceph osd pool rm pool01 pool01 --yes-i-really-really-mean-it
                资源池名 输入两遍

Ceph(分布式文件系统)

Ceph(分布式文件系统)

1、存储基础

分布式存储的类型【重中之重】

2、Ceph 简介

3、Ceph 优势

4、Ceph 架构【重中之重】

4、Ceph 核心组件【重中之重】

5、OSD 存储后端

6、Ceph 数据的存储过程 【重中之重重中之重】

简而言之

7、Ceph 版本发行生命周期

8、Ceph 集群部署

-------------------- 基于 ceph-deploy 部署 Ceph 集群 --------------------

环境准备

可选步骤：创建 Ceph 的管理用户

1、关闭 selinux 与防火墙

2、根据规划设置主机名

3、配置 hosts 解析

4、安装常用软件和依赖包

5、在 admin 管理节点配置 ssh 免密登录所有节点

6、配置时间同步

7、配置 Ceph yum源（由于下面在各节点上手动yum安装 Ceph 软件包）

8、执行完上面所有的操作之后重启所有主机（可选）

9.为node1/2/3配置内网同步用的第二张网卡，并且添加磁盘用作osd

设置网卡

在线刷新磁盘（开机时添加磁盘需要刷新。如果直接重启则不需要）

部署 Ceph 集群

1、为所有节点都创建一个 Ceph 工作目录，后续的工作都在该目录下进行

2、安装 ceph-deploy 部署工具（只需要admin节点）

3、在admin节点为其它节点自动安装 Ceph 软件包（串行较慢） / 或是在所有节点上手动并行安装

4、生成初始配置

5、在管理节点初始化 mon 节点

6、部署能够管理 Ceph 集群的节点（可选）

7、部署 osd 存储节点

8、部署 mgr 节点

9、开启监控模块（在任意一台安装了mgr的服务器上）（图形化）

资源池 Pool 管理

创建一个 Pool 资源池，其名字为 mypool，PGs 数量设置为 64，设置 PGs 的同时还需要设置 PGP（通常PGs和PGP的值是相同的）

查看集群 Pool 信息

查看资源池副本的数量

查看 PG 和 PGP 数量

修改 pg_num 和 pgp_num 的数量为 128（PG与pgp一起修改）

修改 Pool 副本数量为 2

修改默认副本数为 2

删除 Pool 资源池

6、Ceph 数据的存储过程【重中之重重中之重】