kubernetes K8S 挂载分布式存储 ceph

块是一个字节序列（例如，512字节的数据块）。基于块的存储接口是使用旋转介质（如硬盘，CD，软盘甚至传统的9轨磁带）存储数据的最常用方法;Ceph块设备是精简配置，可调整大小并存储在Ceph集群中多个OSD条带化的数据。 Ceph块设备利用RADOS功能，如快照，复制和一致性。 Ceph的RADOS块设备（RBD）使用内核模块或librbd库与OSD进行交互;Ceph的块设备为内核模块或QVM等KVM以及依赖libvirt和QEMU与Ceph块设备集成的OpenStack和CloudStack等基于云的计算系统提供高性能和无限可扩展性。可以使用同一个集群同时运行Ceph RADOS Gateway，CephFS文件系统和Ceph块设备。

linux系统中，ls /dev/下有很多块设备文件，这些文件就是我们添加硬盘时识别出来的；

rbd就是由Ceph集群提供出来的块设备。可以这样理解，sda是通过数据线连接到了真实的硬盘，而rbd是通过网络连接到了Ceph集群中的一块存储区域，往rbd设备文件写入数据，最终会被存储到Ceph集群的这块区域中；

总结：块设备可理解成一块硬盘，用户可以直接使用不含文件系统的块设备，也可以将其格式化成特定的文件系统，由文件系统来组织管理存储空间，从而为用户提供丰富而友好的数据操作支持。

2.文件系统cephfs

Ceph文件系统（CephFS）是一个符合POSIX标准的文件系统，它使用Ceph存储集群来存储其数据。 Ceph文件系统使用与Ceph块设备相同的Ceph存储集群系统。

用户可以在块设备上创建xfs文件系统，也可以创建ext4等其他文件系统，Ceph集群实现了自己的文件系统来组织管理集群的存储空间，用户可以直接将Ceph集群的文件系统挂载到用户机上使用，Ceph有了块设备接口，在块设备上完全可以构建一个文件系统，那么Ceph为什么还需要文件系统接口呢？

主要是因为应用场景的不同，Ceph的块设备具有优异的读写性能，但不能多处挂载同时读写，目前主要用在OpenStack上作为虚拟磁盘，而Ceph的文件系统接口读写性能较块设备接口差，但具有优异的共享性。

3.对象存储

Ceph对象存储使用Ceph对象网关守护进程（radosgw），它是一个用于与Ceph存储集群交互的HTTP服务器。由于它提供与OpenStack Swift和Amazon S3兼容的接口，因此Ceph对象网关具有自己的用户管理。 Ceph对象网关可以将数据存储在用于存储来自Ceph文件系统客户端或Ceph块设备客户端的数据的相同Ceph存储集群中

使用方式就是通过http协议上传下载删除对象（文件即对象）。

老问题来了，有了块设备接口存储和文件系统接口存储，为什么还整个对象存储呢?

Ceph的块设备存储具有优异的存储性能但不具有共享性，而Ceph的文件系统具有共享性然而性能较块设备存储差，为什么不权衡一下存储性能和共享性，整个具有共享性而存储性能好于文件系统存储的存储呢，对象存储就这样出现了。

分布式存储的优点：

**高可靠：**既满足存储读取不丢失，还要保证数据长期存储。在保证部分硬件损坏后依然可以保证数据安全

**高性能：**读写速度快

可扩展：分布式存储的优势就是"分布式"，所谓的"分布式"就是能够将多个物理节点整合在一起形成共享的存储池，节点可以线性扩充，这样可以源源不断的通过扩充节点提升性能和扩大容量，这是传统存储阵列无法做到的

二、Ceph核心组件介绍

在ceph集群中，不管你是想要提供对象存储，块设备存储，还是文件系统存储，所有Ceph存储集群部署都是从设置每个Ceph节点，网络和Ceph存储开始的。 Ceph存储集群至少需要一个Ceph Monitor，Ceph Manager和Ceph OSD（对象存储守护进程）。运行Ceph Filesystem客户端时也需要Ceph元数据服务器。

Monitors：Ceph监视器（ceph-mon）维护集群状态的映射，包括监视器映射，管理器映射，OSD映射和CRUSH映射。这些映射是Ceph守护进程相互协调所需的关键集群状态。监视器还负责管理守护进程和客户端之间的身份验证。冗余和高可用性通常至少需要三个监视器。

Managers：Ceph Manager守护程序（ceph-mgr）负责跟踪运行时指标和Ceph集群的当前状态，包括存储利用率，当前性能指标和系统负载。 Ceph Manager守护进程还托管基于python的模块来管理和公开Ceph集群信息，包括基于Web的Ceph Dashboard和REST API。高可用性通常至少需要两名Managers。

Ceph OSD：Ceph OSD（对象存储守护进程，ceph-osd）存储数据，处理数据复制，恢复，重新平衡，并通过检查其他Ceph OSD守护进程来获取心跳，为Ceph监视器和管理器提供一些监视信息。冗余和高可用性通常至少需要3个Ceph OSD。

MDS：Ceph元数据服务器（MDS，ceph-mds）代表Ceph文件系统存储元数据（即，Ceph块设备和Ceph对象存储不使用MDS）。 Ceph元数据服务器允许POSIX文件系统用户执行基本命令（如ls，find等），而不会给Ceph存储集群带来巨大负担。

三、安装Ceph集群

1 初始化实验环境

机器配置：

Centos7.6

网络模式：NAT

准备三台机器，每台机器需要三个硬盘，配置4GiB/4vCPU/60G

master1-admin是管理节点：192.168.40.200

node1-monitor是监控节点：192.168.40.201

node2-osd是对象存储节点：192.168.40.202

1 .1 、配置静态IP：

把虚拟机或者物理机配置成静态ip地址，这样机器重新启动后ip地址也不会发生改变。以master1-admin主机为例，修改静态IP:

修改/etc/sysconfig/network-scripts/ifcfg-ens33文件，变成如下：

TYPE=Ethernet

PROXY_METHOD=none

BROWSER_ONLY=no

BOOTPROTO=static

IPADDR=192.168.40.200

NETMASK=255.255.255.0

GATEWAY=192.168.40.2

DNS1=192.168.40.2

DEFROUTE=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

DEVICE=ens33

ONBOOT=yes

#修改配置文件之后需要重启网络服务才能使配置生效，重启网络服务命令如下：

service network restart

注：/etc/sysconfig/network-scripts/ifcfg-ens33文件里的配置说明：

NAME=ens33 #网卡名字，跟DEVICE名字保持一致即可

DEVICE=ens33 #网卡设备名，大家ip addr可看到自己的这个网卡设备名，每个人的机器可能这个名字不一样，需要写自己的

BOOTPROTO=static #static表示静态ip地址

ONBOOT=yes #开机自启动网络，必须是yes

IPADDR=192.168.40.200 #ip地址，需要跟自己电脑所在网段一致

NETMASK=255.255.255.0 #子网掩码，需要跟自己电脑所在网段一致

GATEWAY=192.168.40.2 #网关，在自己电脑打开cmd，输入ipconfig /all可看到

DNS1=192.168.40.2 #DNS，在自己电脑打开cmd，输入ipconfig /all可看到

1. 2、配置主机名：

在192.168.40.200上执行如下：

hostnamectl set-hostname master1-admin && bash

在192.168.40.201上执行如下：

hostnamectl set-hostname node1-monitor && bash

在192.168.40.202上执行如下：

hostnamectl set-hostname node2-osd && bash

1. 3、配置hosts文件：

修改master1-admin、node1-monitor、node2-osd机器的/etc/hosts文件，增加如下三行：

192.168.40.200 master1-admin

192.168.40.201 node1-monitor

192.168.40.202 node2-osd

1. 4、配置互信

生成ssh 密钥对

root@master1-admin \~\]# ssh-keygen -t rsa #一路回车，不输入密码 把本地的ssh公钥文件安装到远程主机对应的账户 \[root@master1-admin \~\]# ssh-copy-id node1-monitor ![](https://i-blog.csdnimg.cn/direct/f9b18e236c9b408ab88b65f82eaffc95.png) \[root@master1-admin \~\]# ssh-copy-id node2-osd \[root@master1-admin \~\]# ssh-copy-id master1-admin \[root@node1-monitor \~\]# ssh-keygen #一路回车，不输入密码 把本地的ssh公钥文件安装到远程主机对应的账户 \[root@node1-monitor \~\]# ssh-copy-id master1-admin \[root@node1-monitor \~\]# ssh-copy-id node1-monitor \[root@node1-monitor \~\]# ssh-copy-id node2-osd \[root@node2-osd \~\]# ssh-keygen #一路回车，不输入密码 把本地的ssh公钥文件安装到远程主机对应的账户 \[root@node2-osd \~\]# ssh-copy-id master1-admin \[root@node2-osd \~\]# ssh-copy-id node1-monitor \[root@node2-osd \~\]# ssh-copy-id node2-osd #### ******1.**** ****5、关闭防火墙****** \[root@master1-admin \~\]# systemctl stop firewalld ; systemctl disable firewalld \[root@node1-monitor \~\]# systemctl stop firewalld ; systemctl disable firewalld \[root@node2-osd \~\]# systemctl stop firewalld ; systemctl disable firewalld #### ******1.**** ****6、关闭selinux****** 所有ceph节点的selinux都关闭 #临时关闭 setenforce 0 #永久关闭 sed -i 's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config #注意：修改selinux配置文件之后，重启机器，selinux才能永久生效 #### ******1.7**** ****、配置Ceph安装源****** #配置阿里云的repo源，master1-admin、node1-monitor、node2-osd上操作： #配置ceph的repo源，master1-admin、node1-monitor、node2-osd上操作： yum install -y yum-utils \&\& sudo yum-config-manager --add-repo https://dl.fedoraproject.org/pub/epel/7/x86_64/ \&\& sudo yum install --nogpgcheck -y epel-release \&\& sudo rpm --import /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7 \&\& sudo rm /etc/yum.repos.d/dl.fedoraproject.org\* #把ceph.repo上传到master1-admin、node1-monitor、node2-osd上 cat /etc/yum.repos.d/ceph.repo \[Ceph

name=Ceph packages for $basearch

baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/x86_64/

enabled=1

gpgcheck=0

type=rpm-md

gpgkey=https://mirrors.aliyun.com/ceph/keys/release.asc

priority=1

Ceph-noarch

name=Ceph noarch packages

baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/noarch/

enabled=1

gpgcheck=0

type=rpm-md

gpgkey=https://mirrors.aliyun.com/ceph/keys/release.asc

priority=1

ceph-source

name=Ceph source packages

baseurl=http://mirrors.aliyun.com/ceph/rpm-jewel/el7/SRPMS/

enabled=1

gpgcheck=0

type=rpm-md

gpgkey=https://mirrors.aliyun.com/ceph/keys/release.asc

priority=1

1.8 、配置时间同步

配置机器时间跟网络时间同步，在ceph的每台机器上操作

service ntpd stop

ntpdate cn.pool.ntp.org

crontab -e

* */1 * * * /usr/sbin/ntpdate cn.pool.ntp.org

service crond restart

1.9 、安装基础软件包

#安装基础软件包，在ceph的每台机器上操作

yum install -y yum-utils device-mapper-persistent-data lvm2 wget net-tools nfs-utils lrzsz gcc gcc-c++ make cmake libxml2-devel openssl-devel curl curl-devel unzip sudo ntp libaio-devel wget vim ncurses-devel autoconf automake zlib-devel python-devel epel-release openssh-server socat ipvsadm conntrack ntpdate telnet deltarpm

2 、安装ceph集群

2.1 安装ceph - deploy

#在master1-admin节点安装ceph-deploy

root@master1-admin \~\]# yum install python-setuptools ceph-deploy -y #在master1-admin、node1-monitor和node2-osd节点安装ceph \[root@master1-admin\]# yum install ceph ceph-radosgw -y \[root@node1-monitor \~\]# yum install ceph ceph-radosgw -y \[root@node2-osd \~\]# yum install ceph ceph-radosgw -y \[root@master1-admin \~\]# ceph --version ceph version 10.2.11 (e4b061b47f07f583c92a050d9e84b1813a35671e) #### ******2.2**** ****创建monitor节点****** #创建一个目录，用于保存 ceph-deploy 生成的配置文件信息的 \[root@master1-admin ceph \~\]# cd /etc/ceph \[root@master1-admin ceph\]# ceph-deploy new master1-admin node1-monitor node2-osd \[root@master1-admin ceph\]# ls #生成了如下配置文件 ceph.conf ceph-deploy-ceph.log ceph.mon.keyring Ceph配置文件、一个monitor密钥环和一个日志文件 #### ******2.3**** ****安装ceph-monitor****** 1、修改ceph配置文件 #把ceph.conf配置文件里的默认副本数从3改成1 。把osd_pool_default_size = 2 加入\[global\]段，这样只有2个osd也能达到active+clean状态： \[root@master1-admin\]# vim /etc/ceph/ceph.conf \[global

fsid = af5cd413-1c53-4035-90c6-95368eef5c78

mon_initial_members = node1-monitor

mon_host = 192.168.40.201

auth_cluster_required = cephx

auth_service_required = cephx

auth_client_required = cephx

filestore_xattr_use_omap = true

osd_pool_default_size = 2

mon clock drift allowed = 0.500

mon clock drift warn backoff = 10

mon clock drift allowed #监视器间允许的时钟漂移量默认值0.05

mon clock drift warn backoff #时钟偏移警告的退避指数。默认值5

ceph对每个mon之间的时间同步延时默认要求在0.05s之间，这个时间有的时候太短了。所以如果ceph集群如果出现clock问题就检查ntp时间同步或者适当放宽这个误差时间。

cephx是认证机制是整个 Ceph 系统的用户名/密码

2、配置初始monitor、收集所有的密钥

resources: ["persistentvolumes"]

verbs: ["get", "list", "watch", "create", "delete"]

apiGroups: [""]

resources: ["persistentvolumeclaims"]

verbs: ["get", "list", "watch", "update"]

apiGroups: ["storage.k8s.io"]

resources: ["storageclasses"]

verbs: ["get", "list", "watch"]

apiGroups: [""]

resources: ["events"]

verbs: ["create", "update", "patch"]

apiGroups: [""]

resources: ["services"]

resourceNames: ["kube-dns","coredns"]

verbs: ["list", "get"]

kind: ClusterRoleBinding

apiVersion: rbac.authorization.k8s.io/v1

metadata:

subjects:

kind: ServiceAccount

namespace: default

roleRef:

kind: ClusterRole

apiGroup: rbac.authorization.k8s.io

apiVersion: rbac.authorization.k8s.io/v1

kind: Role

metadata:

rules:

apiGroups: [""]

resources: ["secrets"]

verbs: ["get"]

apiGroups: [""]

resources: ["endpoints"]

verbs: ["get", "list", "watch", "create", "update", "patch"]

apiVersion: rbac.authorization.k8s.io/v1

kind: RoleBinding

metadata:

roleRef:

apiGroup: rbac.authorization.k8s.io

kind: Role

subjects:

kind: ServiceAccount

namespace: default

apiVersion: apps/v1

kind: Deployment

metadata:

spec:

selector:

matchLabels:

app: rbd-provisioner

replicas: 1

strategy:

type: Recreate

template:

metadata:

labels:

app: rbd-provisioner

spec:

containers:

name: rbd-provisioner

image: quay.io/xianchao/external_storage/rbd-provisioner:v1

imagePullPolicy: IfNotPresent

env:

name: PROVISIONER_NAME

value: ceph.com/rbd

serviceAccount: rbd-provisioner

apiVersion: v1

kind: ServiceAccount

metadata:

root@xianchaomaster1 \~\]# kubectl apply -f rbd-provisioner.yaml \[root@xianchaomaster1 \~\]# kubectl get pods -l app=rbd-provisioner NAME READY STATUS RESTARTS AGE rbd-provisioner-685746688f-8mbz5 1/1 Running 0 111s 2、创建ceph-secret #创建pool池 \[root@master1-admin \~\]# ceph osd pool create k8stest1 6 \[root@xianchaomaster1 \~\]# cat ceph-secret-1.yaml apiVersion: v1 kind: Secret metadata: name: ceph-secret-1 type: "ceph.com/rbd" data: key: QVFBWk0zeGdZdDlhQXhBQVZsS0poYzlQUlBianBGSWJVbDNBenc9PQ== \[root@xianchaomaster1 \~\]# kubectl apply -f ceph-secret-1.yaml 3、创建storageclass \[root@xianchaomaster1 \~\]# cat storageclass.yaml apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: k8s-rbd provisioner: ceph.com/rbd parameters: monitors: 192.168.40.201:6789 adminId: admin adminSecretName: ceph-secret-1 pool: k8stest1 userId: admin userSecretName: ceph-secret-1 fsType: xfs imageFormat: "2" imageFeatures: "layering" \[root@xianchaomaster1 \~\]# kubectl apply -f storageclass.yaml 注意: k8s1.20版本通过rbd provisioner动态生成pv会报错: \[root@xianchaomaster1 \~\]# kubectl logs rbd-provisioner-685746688f-8mbz E0418 15:50:09.610071 1 controller.go:1004\] provision "default/rbd-pvc" class "k8s-rbd": unexpected error getting claim reference: selfLink was empty, can't make reference，报错原因是1.20版本仅用了selfLink，解决方法如下； 编辑/etc/kubernetes/manifests/kube-apiserver.yaml 在这里： spec: containers: - command: - kube-apiserver 添加这一行： - --feature-gates=RemoveSelfLink=false ![](https://i-blog.csdnimg.cn/direct/9ead7cde00534ac8ba239637955941c5.png) \[root@xianchaomaster1 \~\]# systemctl restart kubelet \[root@xianchaomaster1 \~\]# kubectl get pods -n kube-system NAME READY STATUS RESTARTS AGE kube-apiserver-xianchaomaster1 1/1 Running 4、创建pvc \[root@xianchaomaster1 \~\]# cat rbd-pvc.yaml kind: PersistentVolumeClaim apiVersion: v1 metadata: name: rbd-pvc spec: accessModes: - ReadWriteOnce volumeMode: Filesystem resources: requests: storage: 1Gi storageClassName: k8s-rbd \[root@xianchaomaster1 \~\]# kubectl apply -f rbd-pvc.yaml \[root@xianchaomaster1 \~\]# kubectl get pvc ![](https://i-blog.csdnimg.cn/direct/4497448869ae41c6b764e93953044815.png) 创建pod，挂载pvc \[root@xianchaomaster1 \~\]# cat pod-sto.yaml apiVersion: v1 kind: Pod metadata: labels: test: rbd-pod name: ceph-rbd-pod spec: containers: - name: ceph-rbd-nginx image: nginx imagePullPolicy: IfNotPresent volumeMounts: - name: ceph-rbd mountPath: /mnt readOnly: false volumes: - name: ceph-rbd persistentVolumeClaim: claimName: rbd-pvc \[root@xianchaomaster1 \~\]# kubectl apply -f pod-sto.yaml \[root@xianchaomaster1 \~\]# kubectl get pods -l test=rbd-pod NAME READY STATUS RESTARTS AGE ceph-rbd-pod 1/1 Running 0 50s ### ******2.9**** ****k**** ****8s**** ****挂载cephfs****** \[root@master1-admin \~\]# ceph fs ls name: xianchao, metadata pool: cephfs_metadata, data pools: \[cephfs_data

1、创建ceph子目录

为了别的地方能挂载cephfs，先创建一个secretfile

root@master1-admin \~\]# cat /etc/ceph/ceph.client.admin.keyring \|grep key\|awk -F" " '{print $3}' \> /etc/ceph/admin.secret 挂载cephfs的根目录到集群的mon节点下的一个目录，比如xianchao_data，因为挂载后，我们就可以直接在xianchao_data下面用Linux命令创建子目录了。 \[root@master1-admin \~\]# mkdir xianchao_data \[root@master1-admin \~\]# mount -t ceph 192.168.40.201:6789:/ /root/xianchao_data -o name=admin,secretfile=/etc/ceph/admin.secret \[root@master1-admin \~\]# df -h 192.168.40.201:6789:/ 165G 106M 165G 1% /root/xianchao_data 在cephfs的根目录里面创建了一个子目录lucky，k8s以后就可以挂载这个目录 \[root@master1-admin \~\]# cd /root/xianchao_data/ \[root@master1-admin xianchao_data\]# mkdir lucky \[root@master1-admin xianchao_data\]# chmod 0777 lucky/ 2、测试k8s的pod挂载cephfs 1)创建k8s连接ceph使用的secret 将/etc/ceph/ceph.client.admin.keyring里面的key的值转换为base64，否则会有问题 \[root@master1-admin xianchao_data\]# echo "AQBvBdZgsDSZKxAAan+5rnsjr2ziA/atqFnQOA==" \| base64 QVFCdkJkWmdzRFNaS3hBQWFuKzVybnNqcjJ6aUEvYXRxRm5RT0E9PQo= \[root@xianchaomaster1 ceph\]# cat cephfs-secret.yaml apiVersion: v1 kind: Secret metadata: name: cephfs-secret data: key: QVFCdkJkWmdzRFNaS3hBQWFuKzVybnNqcjJ6aUEvYXRxRm5RT0E9PQo= \[root@xianchaomaster1 ceph\]# kubectl apply -f cephfs-secret.yaml \[root@xianchaomaster1 ceph\]# cat cephfs-pv.yaml apiVersion: v1 kind: PersistentVolume metadata: name: cephfs-pv spec: capacity: storage: 1Gi accessModes: - ReadWriteMany cephfs: monitors: - 192.168.40.201:6789 path: /lucky user: admin readOnly: false secretRef: name: cephfs-secret persistentVolumeReclaimPolicy: Recycle \[root@xianchaomaster1 ceph\]# kubectl apply -f cephfs-pv.yaml \[root@xianchaomaster1 ceph\]# cat cephfs-pvc.yaml kind: PersistentVolumeClaim apiVersion: v1 metadata: name: cephfs-pvc spec: accessModes: - ReadWriteMany volumeName: cephfs-pv resources: requests: storage: 1Gi \[root@xianchaomaster1 ceph\]# kubectl apply -f cephfs-pvc.yaml \[root@xianchaomaster1 ceph\]# kubectl get pvc NAME STATUS VOLUME CAPACITY cephfs-pvc Bound cephfs-pv 1Gi RWX 创建第一个pod，挂载cephfs-pvc \[root@xianchaomaster1 ceph\]# cat cephfs-pod-1.yaml apiVersion: v1 kind: Pod metadata: name: cephfs-pod-1 spec: containers: - image: nginx name: nginx imagePullPolicy: IfNotPresent volumeMounts: - name: test-v1 mountPath: /mnt volumes: - name: test-v1 persistentVolumeClaim: claimName: cephfs-pvc \[root@xianchaomaster1 ceph\]# kubectl apply -f cephfs-pod-1.yaml 创建第二个pod，挂载cephfs-pvc \[root@xianchaomaster1 ceph\]# cat cephfs-pod-2.yaml apiVersion: v1 kind: Pod metadata: name: cephfs-pod-2 spec: containers: - image: nginx name: nginx imagePullPolicy: IfNotPresent volumeMounts: - name: test-v1 mountPath: /mnt volumes: - name: test-v1 persistentVolumeClaim: claimName: cephfs-pvc \[root@xianchaomaster1 ceph\]# kubectl apply -f cephfs-pod-2.yaml \[root@xianchaomaster1 ceph\]# kubectl exec -it cephfs-pod-1 -- /bin/sh # cd /mnt # touch hello \[root@xianchaomaster1 ceph\]# kubectl exec -it cephfs-pod-2 -- /bin/sh # cd /mnt # touch welcome 回到master1-admin上，可以看到在cephfs文件目录下已经存在内容了 \[root@master1-admin lucky\]# pwd /root/xianchao_data/lucky \[root@master1-admin lucky\]# ls hello welcome