014:查看系统主要日志
查看以下日志:
主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"
/var/log/messages
/var/log/dmesg
015:主机通讯是否延迟
执行命令:
#ping 网关_IP
#ping 关联主机_IP
016:主机通讯是否丢包
执行:
#/sbin/ifconfig
#ping -c 次数 IP地址
017:主机路由设置是否正确
- 执行以下命令:
#route
#cat /proc/net/route
- 查看路由是否正确添加;
- 当前路由所对应物理网卡是否正确;
- 最多只有一条缺省路由。
018:到相连业务系统的通讯是否正常
- 执行命令:
#ping 关联系统_IP ;网关_IP
#telnet 关联系统_IP PORT_NUMBER
#route
#traceroute 关联系统_IP
#ifconfig
- 检测与目标主机的连通性;
- 检测路由正确性;
- 检测网卡状况是否正常。
019:网卡驱动是否正常加载
- 执行命令:
#cat /var/log/mesages | grep -Ei "system boot|Err|Warn| Fatal|fail|Killsingal" 查看日志信息
#ifconfig 查看网卡工作状态
#lspci |grep -i eth(linux7)、
dmesg | grep -i eth(linux6) 查看物理网卡
#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序
#cat /proc/modules 查看已加载驱动
#lsmod 查看当前网卡驱动是否已经正确加载
#modinfo 驱动_名称 查看驱动信息
- 查看messages日志文件中是否有报错;
- 根据ifconfig查看网卡工作状态;
- 根据lspci判断物理网卡型号;
- 使用ethtool查看指定网卡所使用的驱动程序;
- 根据/proc/modules、lsmod判断网卡驱动是否已经正常加载;
- 使用modinfo查看驱动程序详细信息。
020:网卡配置信息检测
#ping 网 关 _IP
#ping 关联主机_IP
#ifconfig 查看网卡信息
#tail -2000 /var/log/messages 查看日志信息
#cat /etc/sysconfig/network- scripts/ifcfg-eth?,
查看IP,掩码,网关等设置信息;
修改配置文件后,执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。
- 检测主机与网关及关联主机通讯是否正常;
- 主机网卡状态是否正常;
- 系统日志中是否有明显报错;
- 主机缺省路由是否配置正确;
- 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;
- 调整配置并重启网络服务
021:网卡配置参数
执行命令:
#ethtool 网卡_名称
使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式(10/100/1000baseT)及工作模式(Half/Full)。
022:查看群集状态及共享资源
执行:clustat(redhat6)
pcs status (redhat7)
- 集群资源状态为"Online";
- 集群资源状态为"Started"
023:重启群集服务
redhat6
#clusvcadm --r test_svc (test_svc 资源组名字)
重新启动test_svc这个服务;
redhat7
pcs resource unmanager <resource_name>
pcs cluster disunmanagerable
pcs cluster enable
pcs resource unmanager <resource_name>
- 查看日志:tail -f /var/log/messages
- 使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
- 命令执行成功,服务重新运行于当前节点;
- 切换过程中,messages日志文件中无报错信息;
- clustat命令显示双机节点及服务状态正常。
024:群集服务切换到备机
- 如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:
redhat 6
#clusvcadm --r test_svc -m host2
将服务test_svc切换到主机host2上运行
redhat7
pcs cluster standby node1
将node1上的资源切换到主机node2上运行
pcs cluster unstandby node1
- 查看日志:tail -f /var/log/messages
- clustat/pcs status命令显示双机节点及服务状态正常。
- 命令执行成功,双机节点正常切换;
- 切换过程中,messages日志文件中无报错信息;
- clustat/pcs status命令显示双机节点及服务状态正常
025:关闭主机群集服务
- 如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:
#clusvcadm --s test_svc --m host2
redhat6
在两个节点执行同时进行操作
service rgmanager stop
service clvmd stop
service cman stop
redhat7
pcs cluster disable --all
- 执行clustat命令查看服务关闭情况;clustat 命令不存在
- 使用df、ping、"ip addr list"命令,确认群集共享资源已释放;
- 查看日志:tail -f /var/log/messages;
-
- 群集Service正常关闭;
- 群集共享资源已释放;
- 系统日志无报错;
- 群集各节点Cluster服务关闭;
026:手工恢复群集服务
- 在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务:
网络IP地址:使用ifconfig命令,修改服务地址;
存储空间:
vgscan 扫描可用卷组;
vgdisplay 查看卷组信息;
importvg VG_NAME 导入卷组信息;
vgchange -ay VG_NAME 激活卷组;
lvscan 识别lv;
如果上述操作中,卷组无法在单机激活,则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:
#vgs -o +vg_tags 查看卷组标签信息
#vgchange -addtag `hostname` 共享_VG_NAME
#vgs -o +vg_tags 验证卷组标签是否已经添加】
文件系统:根据lvscan信息,mount相关文件系统;
配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;
检测数据库配置信息完备,尝试启动数据库(其间注意观察数据库日志信息);
应用服务:根据应用服务启动顺序,启动各项应用服务。
- 查看日志:tail -f /var/log/messages
2.- 手工添加Service IP;
- 卷组可以正常在单机激活;
- lv信息正常;
- 在单机手工挂载共享存储资源;
- 启动数据库及应用。
027:群集服务冻结和解冻
redhat6
clusvcadm -Z 资源名字
redhat7
pcs status
pcs cluster standby node1(没有资源的节点)
pcs resource unmanager service (如果两个节点都有资源)
2) 解冻
redhat6
clusvcadm -U 资源名字
应用服务:根据应用服务启动顺序,启动各项应用服务。
- 查看日志:tail -f /var/log/messages
-
- 手工添加Service IP;
- 卷组可以正常在单机激活;
- lv信息正常;
- 在单机手工挂载共享存储资源;
- 启动数据库及应用。