ceph的osd盘删除操作
拓展:osd磁盘的删除(这里以删除node1上的osd.0磁盘为例)
1, 查看osd磁盘状态
[root@node1 ceph]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 0.00298 root default
-3 0.00099 host node1
0 hdd 0.00099 osd.0 up 1.00000 1.00000
-5 0.00099 host node2
1 hdd 0.00099 osd.1 up 1.00000 1.00000
-7 0.00099 host node3
2 hdd 0.00099 osd.2 up 1.00000 1.00000
2, 先标记为out
[root@node1 ceph]# ceph osd out osd.0
marked out osd.0.
[root@node1 ceph]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 0.00298 root default
-3 0.00099 host node1
0 hdd 0.00099 osd.0 up 0 1.00000 可以看到权重为0,但状态还是UP
-5 0.00099 host node2
1 hdd 0.00099 osd.1 up 1.00000 1.00000
-7 0.00099 host node3
2 hdd 0.00099 osd.2 up 1.00000 1.00000
3, 再rm删除,但要先去**==osd.0对应的节点上==**停止ceph-osd服务,否则rm不了
[root@node1 ceph]# systemctl stop ceph-osd@0.service
[root@node1 ceph]# ceph osd rm osd.0
removed osd.0
[root@node1 ceph]# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 0.00298 root default
-3 0.00099 host node1
0 hdd 0.00099 osd.0 DNE 0 状态不再为UP了
-5 0.00099 host node2
1 hdd 0.00099 osd.1 up 1.00000 1.00000
-7 0.00099 host node3
2 hdd 0.00099 osd.2 up 1.00000 1.00000
4, 查看集群状态
[root@node1 ceph]# ceph -s
cluster:
id: 6788206c-c4ea-4465-b5d7-ef7ca3f74552
health: HEALTH_WARN
1 osds exist in the crush map but not in the osdmap 有警告,没有在crush算法中删除
services:
mon: 3 daemons, quorum node1,node2,node3
mgr: node1(active), standbys: node2, node3
osd: 2 osds: 2 up, 2 in 发现只有两个osd,说明osd.0删除成功
data:
pools: 0 pools, 0 pgs
objects: 0 objects, 0 B
usage: 28 MiB used, 2.0 GiB / 2.0 GiB avail 3G变为2G,说明删除成功
pgs:
5, 在crush算法中和auth验证中删除
[root@node1 ceph]# ceph osd crush remove osd.0
removed item id 0 name 'osd.0' from crush map
[root@node1 ceph]# ceph auth del osd.0
updated
6, 还需要在**==osd.0对应的节点==**上卸载
[root@node1 ceph]# df -h |grep osd
tmpfs 488M 48K 488M 1% /var/lib/ceph/osd/ceph-0
[root@node1 ceph]# umount /var/lib/ceph/osd/ceph-0
7, 在osd.0对应的节点上删除osd磁盘产生的逻辑卷
[root@node1 ceph]# pvs
PV VG Fmt Attr PSize PFree
/dev/sdb ceph-56e0d335-80ba-40d8-b076-fc63a766dcac lvm2 a-- 1020.00m 0
[root@node1 ceph]# vgs
VG #PV #LV #SN Attr VSize VFree
ceph-56e0d335-80ba-40d8-b076-fc63a766dcac 1 1 0 wz--n- 1020.00m 0
[root@node1 ceph]# lvremove ceph-56e0d335-80ba-40d8-b076-fc63a766dcac
Do you really want to remove active logical volume ceph-56e0d335-80ba-40d8-b076-fc63a766dcac/osd-block-ef26149d-5d7d-4cc7-8251-684fbddc2da5? [y/n]:y
Logical volume "osd-block-ef26149d-5d7d-4cc7-8251-684fbddc2da5" successfully removed
至此,就完全删除了
8,如果要再加回来,再次在部署节点使用下面命令即可
[root@node1 ceph]# ceph-deploy disk zap node1 /dev/sdb
[root@node1 ceph]# ceph-deploy osd create --data /dev/sdb node1
SAN
SAN的分类
两种SAN:
-
FC-SAN: 早期的SAN, 服务器与交换机的数据传输是通过光纤进行的, 服务器把SCSI指令传输到存储设备上,不能走普通LAN网的IP协议。
-
IP-SAN: 用IP协议封装的SAN, 可以完全走普通网络,因此叫做IP-SAN, 最典型的就是ISCSI。
FC-SAN优缺点: 速度快(2G,8G,16G), 成本高, 传输距离有一定限制。
IP-SAN优缺点: 速度较慢(已经有W兆以太网标准), 成本低, 传输距离无限制。
IP-SAN之iscsi实现
实验: Linux平台通过iscsi实现IP-SAN
实验准备: 两台虚拟机(centos7平台)同网段(比如vmnet8), 交换机不用模拟,因为同网段的虚拟机就相当于连在同一个交换机上
-
静态IP,(两台IP互通就行,网关和DNS不做要求)
-
都配置主机名及其主机名互相绑定
-
关闭防火墙,selinux
-
时间同步
-
配置好yum(需要加上epel源)
-
在存储导出端模拟存储(模拟存储可以使用多种形式,如硬盘:/dev/sdb,分区:/dev/sdb1,软raid:/dev/md0,逻辑卷:/dev/vg/lv01,dd创建的大文件等等)
下面我为了实验方便,就用dd的大文件来模拟存储
export# mkdir /data/
export# dd if=/dev/zero of=/data/storage1 bs=1M count=500
export# dd if=/dev/zero of=/data/storage2 bs=1M count=1000
export# dd if=/dev/zero of=/data/storage3 bs=1M count=1500
export# dd if=/dev/zero of=/data/storage4 bs=1M count=2000
一个模拟了4个存储文件用来导出(大小不一样,是为了后续讨论)
实验步骤:
-
export导出端安装软件, 配置导出的存储,启动服务
-
import导入端安装软件, 导入存储,启动服务
实验过程:
第1步: 在导出端上安装iscsi-target-utils软件包
export# yum install epel-release -y 没有安装epel源的,再次确认安装
export# yum install scsi-target-utils -y
第2步: 在导出端配置存储的导出
export# cat /etc/tgt/targets.conf |grep -v "#"
default-driver iscsi
<target iscsi:data1>
backing-store /data/storage1
</target>
<target iscsi:data2>
backing-store /data/storage2
</target>
<target iscsi:data3>
backing-store /data/storage3
</target>
<target iscsi:data4>
backing-store /data/storage4
</target>
第3步: 导出端启动服务并验证
export# systemctl start tgtd
export# systemctl enable tgtd
验证端口和共享资源是否ok
export# lsof -i:3260
export# tgt-admin --show
第4步: 导入端安装iscsi-initiator-utils软件包
import# yum install iscsi-initiator-utils
第5步: 导入端导入存储
在登录前必须要先连接并发现资源(discovery)
import# iscsiadm -m discovery -t sendtargets -p 10.1.1.11
10.1.1.11:3260,1 iscsi:data1
10.1.1.11:3260,1 iscsi:data2
10.1.1.11:3260,1 iscsi:data3
10.1.1.11:3260,1 iscsi:data4
发现资源成功后,就可以进行资源登录了
只登录其中一个存储:
import# iscsiadm -m node -T iscsi:data1 -p 10.1.1.11 -l
直接登录所有发现的存储:
import# iscsiadm -m node -l
登录成功后,直接使用fdisk -l查看
import# fdisk -l |grep sd[b-z]
第6步: import端启动服务
启动服务,并做成开机自启动
import# systemctl start iscsi
import# systemctl enable iscsi
import# systemctl start iscsid
import# systemctl enable iscsid
补充: 关于取消连接的操作
取消登录其中一个特定目录: 把-l改成-u
import# iscsiadm -m node -T iscsi:data1 -p 10.1.1.11 -u
取消登录所有目录:
import# iscsiadm -m node -u
如果要连discovery的信息也删除则使用--op delete命令
import# iscsiadm -m node -T iscsi:data1 -p 10.1.1.11 --op delete
删除所有登录过的目录信息:
import# iscsiadm -m node --op delete
问题一: 重新登录几次,会发现什么?
import# iscsiadm -m node -u &> /dev/null
import# iscsiadm -m node -l &> /dev/null
import# fdisk -l |grep sd[b-z]
答: 会发现名字会混乱. 解决方法有udev和存储多路径。
问题二: 如果再加一个新的导入服务器,两个导入服务器导入同一个存储,然后格式化,挂载。能实现同读同写吗?
答: 不可以。
课外拓展: 可以对导出的存储配置验证功能,导入端配置正确的用户名和密码才能登陆
只有两个地方不一样:
- 在导出端配置时加上用户名和密码验证功能
<target iscsi:data1>
backing-store /data/storage1
incominguser daniel daniel123 验证功能,此用户自定义即可,与系统用户无关
</target>
- 在导入端配置时需要多配置下面一步,对应导出端的用户名与密码
如果export端有源被配置了验证功能,那么import端需要配置正确的用户名和密码才OK
CHAP (Challenge-Handshake Authentication Protocol) 挑战握手验证协议
import# vim /etc/iscsi/iscsid.conf
57 node.session.auth.authmethod = CHAP
61 node.session.auth.username = daniel
62 node.session.auth.password = daniel123
71 discovery.sendtargets.auth.authmethod = CHAP
75 discovery.sendtargets.auth.username = daniel
76 discovery.sendtargets.auth.password = daniel123
做完这一步后, 就可以发现资源并登录了
存储多路径
存储多路径(device-multipath): 相当于存储线路的双线路绑定,做HA或LB。
作用:
-
双存储线路HA
-
双存储线路LB
-
可以自定义绑定后的设备名称,达到固定iscsi设备名称的目的。
实验准备
- 在前面实验的基础上,导出端和导入端各加一个网卡连接到一个新的网络上(注意:新的网段一定要用静态ip)。我这里为10.2.2.0/24网段
vmnet8 10.1.1.0/24
vmnet1 10.2.2.0/24
- 然后在存储导入端登出这四个存储,并删除相关信息
import# iscsiadm -m node -u
import# iscsiadm -m node --op delete
实验过程
第1步: 在存储导入端去发现导出端上的存储。分别使用导出端的==两个IP==去发现,然后将它们登录
import# iscsiadm -m discovery -t sendtargets -p 10.1.1.11
10.1.1.11:3260,1 iscsi:data1
10.1.1.11:3260,1 iscsi:data2
10.1.1.11:3260,1 iscsi:data3
10.1.1.11:3260,1 iscsi:data4
import# iscsiadm -m discovery -t sendtargets -p 10.2.2.11
10.2.2.11:3260,1 iscsi:data1
10.2.2.11:3260,1 iscsi:data2
10.2.2.11:3260,1 iscsi:data3
10.2.2.11:3260,1 iscsi:data4
把发现的targets全部登录
import# iscsiadm -m node -l
使用fdisk -l |grep sd[b-z]命令能查看到8个存储(但实际是4个存储,分别由两个网络线路去访问的)
第2步, 在存储导入端安装device-mapper-multipath的包
import# yum install device-mapper\*
第3步, 把上面的8个进行多路径绑定,绑成4个(同一个存储两个线路访问的绑定成一个)
先运行此命令,才会产生/etc/multipath.conf的配置文件
import# mpathconf --enable
配置/etc/multipath.conf配置文件
import# cat /etc/multipath.conf |grep -v ^# |grep -v ^$
defaults { 看作为全局配置参数
user_friendly_names yes 使用友好名字(默认名为wwid,名字长且难认,友好名可以自定义)
find_multipaths yes
}
blacklist { 黑名单(表示所有在黑名单里的设备不会被绑定成多路径设备)
}
import# vim /etc/multipath.conf
blacklist {
devnode "^sda" 除了sda开头的设备,我都做多路径(指的就是那8个发现的设备)
}
启动服务
import# systemctl start multipathd.service
import# systemctl enable multipathd.service
第4步: 查看当前绑定状态
使用multipath -ll
命令可以看到四个新绑定的设备了(mpatha,mpathb,mpathc,mpathd)这四个设备就是双线路绑定的设备
/lib/udev/scsi_id --whitelisted --replace-whitespace --device=/dev/sda
命令可用来查看wwid
import# multipath -ll
mpathd (360000000000000000e00000000040001) dm-3 IET ,VIRTUAL-DISK 长数字字符串就是wwid
size=2.0G features='0' hwhandler='0' wp=rw
|-+- policy='service-time 0' prio=1 status=active 主线路
| `- 8:0:0:1 sdf 8:80 active ready running
`-+- policy='service-time 0' prio=1 status=enabled 备线路(也就是说默认为主备HA模式)
`- 9:0:0:1 sdh 8:112 active ready running
mpathc (360000000000000000e00000000030001) dm-2 IET ,VIRTUAL-DISK
size=1.5G features='0' hwhandler='0' wp=rw
|-+- policy='service-time 0' prio=1 status=active
| `- 6:0:0:1 sde 8:64 active ready running
`-+- policy='service-time 0' prio=1 status=enabled
`- 7:0:0:1 sdg 8:96 active ready running
mpathb (360000000000000000e00000000020001) dm-1 IET ,VIRTUAL-DISK
size=1000M features='0' hwhandler='0' wp=rw
|-+- policy='service-time 0' prio=1 status=active
| `- 4:0:0:1 sdc 8:32 active ready running
`-+- policy='service-time 0' prio=1 status=enabled
`- 5:0:0:1 sdd 8:48 active ready running
mpatha (360000000000000000e00000000010001) dm-0 IET ,VIRTUAL-DISK
size=500M features='0' hwhandler='0' wp=rw
|-+- policy='service-time 0' prio=1 status=active
| `- 2:0:0:1 sda 8:0 active ready running
`-+- policy='service-time 0' prio=1 status=enabled
`- 3:0:0:1 sdb 8:16 active ready running
第5步: 下面我对这8个存储进行自定义绑定(把名字分别绑成data1,data2,这两个做成ha高可用模式;data3,data4这两个做成lb负载均衡模式)
import# cat /etc/multipath.conf |grep -v ^# |grep -v ^$
defaults {
user_friendly_names yes
find_multipaths yes
}
multipaths {
multipath {
wwid 360000000000000000e00000000010001 wwid值
alias data1 自定义绑定的名字
path_grouping_policy failover HA模式
failback immediate 主线路挂了再启起来后,会马上切换回来
}
multipath {
wwid 360000000000000000e00000000020001
alias data2
path_grouping_policy failover
failback immediate
}
multipath {
wwid 360000000000000000e00000000030001
alias data3
path_grouping_policy multibus LB模式
path_selector "round-robin 0" LB的算法为rr轮循
}
multipath {
wwid 360000000000000000e00000000040001
alias data4
path_grouping_policy multibus
path_selector "round-robin 0"
}
}
blacklist {
}
第6步: 重启服务,使自定义配置生效
import# systemctl restart multipathd.service
查看验证,就绑定成了data1,data2,data3,data4这样的名称
import# multipath -ll
import# ls /dev/mapper/data*
/dev/mapper/data1 /dev/mapper/data2 /dev/mapper/data3 /dev/mapper/data4
第7步: 测试(测试过程省略,见授课视频)
将failover和multibus两种模式各选一个存储格式化(可以直接格式化,也可以先分区再格式化),并挂载进行测试
/dev/mapper/data4如果分两个区,则名字对应为:/dev/mapper/data4p1,/dev/mapper/data4p2(如果分区后看不到,可以使用partprobe命令刷新一下)
centos7写到/etc/fstab里需要多加一个参数(_netdev)就可以成功自动挂载,写法如下
/dev/mapper/data4p1 /mnt xfs defaults,_netdev 0 0