linux 故障处置通用流程-36计-14-27

014：查看系统主要日志
查看以下日志：

主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"

/var/log/messages

/var/log/dmesg
015：主机通讯是否延迟
执行命令：

#ping 网关_IP

#ping 关联主机_IP

016：主机通讯是否丢包
执行:

#/sbin/ifconfig

#ping -c 次数 IP地址

017：主机路由设置是否正确

执行以下命令：

#route

#cat /proc/net/route

查看路由是否正确添加；
当前路由所对应物理网卡是否正确；
最多只有一条缺省路由。

018：到相连业务系统的通讯是否正常

执行命令：

#ping 关联系统_IP ；网关_IP

#telnet 关联系统_IP PORT_NUMBER

#route

#traceroute 关联系统_IP

#ifconfig

检测与目标主机的连通性；
检测路由正确性；
检测网卡状况是否正常。

019：网卡驱动是否正常加载

执行命令：

#ifconfig 查看网卡工作状态

#lspci |grep -i eth(linux7)、

dmesg | grep -i eth(linux6) 查看物理网卡

#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序

#cat /proc/modules 查看已加载驱动

#lsmod 查看当前网卡驱动是否已经正确加载

#modinfo 驱动_名称 查看驱动信息

查看messages日志文件中是否有报错；
根据ifconfig查看网卡工作状态；
根据lspci判断物理网卡型号；
使用ethtool查看指定网卡所使用的驱动程序；
根据/proc/modules、lsmod判断网卡驱动是否已经正常加载；
使用modinfo查看驱动程序详细信息。

020：网卡配置信息检测
#ping 网关 _IP

#ping 关联主机_IP

#ifconfig 查看网卡信息

#tail -2000 /var/log/messages 查看日志信息

#cat /etc/sysconfig/network- scripts/ifcfg-eth?,

查看IP,掩码,网关等设置信息;

修改配置文件后，执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。

检测主机与网关及关联主机通讯是否正常；
主机网卡状态是否正常；
系统日志中是否有明显报错；
主机缺省路由是否配置正确；
网卡配置文件是否正确：如果配置文件中含有MAC地址，应使用dmesg命令，验证MAC地址是否填写正确；
调整配置并重启网络服务

021：网卡配置参数
执行命令：

#ethtool 网卡_名称
使用ethtool命令,查看网卡配置是否正常，主要关注网卡连接模式（10/100/1000baseT）及工作模式（Half/Full）。
022：查看群集状态及共享资源
执行：clustat(redhat6)

pcs status (redhat7)

集群资源状态为"Online"；
集群资源状态为"Started"

023：重启群集服务
redhat6

#clusvcadm --r test_svc （test_svc 资源组名字）

重新启动test_svc这个服务;

redhat7

pcs resource unmanager <resource_name>

pcs cluster disunmanagerable

pcs cluster enable

pcs resource unmanager <resource_name>

查看日志:tail -f /var/log/messages
使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
命令执行成功，服务重新运行于当前节点；
切换过程中，messages日志文件中无报错信息；
clustat命令显示双机节点及服务状态正常。

024：群集服务切换到备机

如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:

redhat 6

#clusvcadm --r test_svc -m host2

将服务test_svc切换到主机host2上运行

redhat7

pcs cluster standby node1

将node1上的资源切换到主机node2上运行

pcs cluster unstandby node1

查看日志:tail -f /var/log/messages
clustat/pcs status命令显示双机节点及服务状态正常。
命令执行成功，双机节点正常切换；
切换过程中，messages日志文件中无报错信息；
clustat/pcs status命令显示双机节点及服务状态正常

025：关闭主机群集服务

如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:

#clusvcadm --s test_svc --m host2

redhat6

在两个节点执行同时进行操作

service rgmanager stop

service clvmd stop

service cman stop

redhat7

pcs cluster disable --all

执行clustat命令查看服务关闭情况；clustat 命令不存在
使用df、ping、"ip addr list"命令，确认群集共享资源已释放；
查看日志:tail -f /var/log/messages；
1. 群集Service正常关闭；
2. 群集共享资源已释放；
3. 系统日志无报错；
4. 群集各节点Cluster服务关闭；

026：手工恢复群集服务

在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务：

网络IP地址：使用ifconfig命令,修改服务地址;

存储空间：

vgscan 扫描可用卷组;

vgdisplay 查看卷组信息;

importvg VG_NAME 导入卷组信息;

vgchange -ay VG_NAME 激活卷组;

lvscan 识别lv;
如果上述操作中，卷组无法在单机激活，则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制，只有带有相应TAG标签的卷组才能在相应主机激活，可按如下操作验证并调整：

#vgs -o +vg_tags 查看卷组标签信息

#vgchange -addtag `hostname` 共享_VG_NAME

#vgs -o +vg_tags 验证卷组标签是否已经添加】

文件系统：根据lvscan信息,mount相关文件系统;

配置文件：检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;

检测数据库配置信息完备,尝试启动数据库（其间注意观察数据库日志信息）;

应用服务：根据应用服务启动顺序,启动各项应用服务。

查看日志:tail -f /var/log/messages
2.
1. 手工添加Service IP；
2. 卷组可以正常在单机激活；
3. lv信息正常；
4. 在单机手工挂载共享存储资源；
5. 启动数据库及应用。

027：群集服务冻结和解冻
redhat6

clusvcadm -Z 资源名字

redhat7

pcs status

pcs cluster standby node1(没有资源的节点)

pcs resource unmanager service (如果两个节点都有资源)

2）解冻

redhat6

clusvcadm -U 资源名字

应用服务：根据应用服务启动顺序,启动各项应用服务。

查看日志:tail -f /var/log/messages
1. 手工添加Service IP；
2. 卷组可以正常在单机激活；
3. lv信息正常；
4. 在单机手工挂载共享存储资源；
5. 启动数据库及应用。