linux 故障处置通用流程-36计-14-27

014:查看系统主要日志
查看以下日志:

主要查以下关键字 error/NIC/fs /"link down"/Oout of memory"

/var/log/messages

/var/log/dmesg
015:主机通讯是否延迟
执行命令:

#ping 网关_IP

#ping 关联主机_IP

​​​​​​​016:主机通讯是否丢包
执行:

#/sbin/ifconfig

#ping -c 次数 IP地址

​​​​​​​017:主机路由设置是否正确

  1. 执行以下命令:

#route

#cat /proc/net/route

  1. 查看路由是否正确添加;
  2. 当前路由所对应物理网卡是否正确;
  3. 最多只有一条缺省路由。

​​​​​​​018:到相连业务系统的通讯是否正常

  1. 执行命令:

#ping 关联系统_IP网关_IP

#telnet 关联系统_IP PORT_NUMBER

#route

#traceroute 关联系统_IP

#ifconfig

  1. 检测与目标主机的连通性;
  2. 检测路由正确性;
  3. 检测网卡状况是否正常。

019:网卡驱动是否正常加载

  1. 执行命令:

#cat /var/log/mesages | grep -Ei "system boot|Err|Warn| Fatal|fail|Killsingal" 查看日志信息

#ifconfig 查看网卡工作状态

#lspci |grep -i eth(linux7)、

dmesg | grep -i eth(linux6) 查看物理网卡

#ethtool -i 网卡_名称 查看指定网卡所使用的驱动程序

#cat /proc/modules 查看已加载驱动

#lsmod 查看当前网卡驱动是否已经正确加载

#modinfo 驱动_名称 查看驱动信息

  1. 查看messages日志文件中是否有报错;
  2. 根据ifconfig查看网卡工作状态;
  3. 根据lspci判断物理网卡型号;
  4. 使用ethtool查看指定网卡所使用的驱动程序;
  5. 根据/proc/modules、lsmod判断网卡驱动是否已经正常加载;
  6. 使用modinfo查看驱动程序详细信息。

020:网卡配置信息检测
#ping _IP

#ping 关联主机_IP

#ifconfig 查看网卡信息

#tail -2000 /var/log/messages 查看日志信息

#cat /etc/sysconfig/network- scripts/ifcfg-eth?,

查看IP,掩码,网关等设置信息;

修改配置文件后,执行 #service network restart(linux6)、systemctl restart network(linux7) ,重启网络服务。

  1. 检测主机与网关及关联主机通讯是否正常;
  2. 主机网卡状态是否正常;
  3. 系统日志中是否有明显报错;
  4. 主机缺省路由是否配置正确;
  5. 网卡配置文件是否正确:如果配置文件中含有MAC地址,应使用dmesg命令,验证MAC地址是否填写正确;
  6. 调整配置并重启网络服务

021:网卡配置参数
执行命令:

#ethtool 网卡_名称
使用ethtool命令,查看网卡配置是否正常,主要关注网卡连接模式(10/100/1000baseT)及工作模式(Half/Full)。
022:查看群集状态及共享资源
执行:clustat(redhat6)

pcs status (redhat7)

  1. 集群资源状态为"Online";
  2. 集群资源状态为"Started"

023:重启群集服务
redhat6

#clusvcadm --r test_svc (test_svc 资源组名字)

重新启动test_svc这个服务;

redhat7

pcs resource unmanager <resource_name>

pcs cluster disunmanagerable

pcs cluster enable

pcs resource unmanager <resource_name>

  1. 查看日志:tail -f /var/log/messages
  2. 使用clustat(redhat6)/pcs stauts(redhat7)查看双机节点及服务状态。
  3. 命令执行成功,服务重新运行于当前节点;
  4. 切换过程中,messages日志文件中无报错信息;
  5. clustat命令显示双机节点及服务状态正常。

024:群集服务切换到备机

  1. 如果主机服务异常,且通过重启主机服务进程亦无法恢复,那么可以将服务切换到备机:

redhat 6

#clusvcadm --r test_svc -m host2

将服务test_svc切换到主机host2上运行

redhat7

pcs cluster standby node1

将node1上的资源切换到主机node2上运行

pcs cluster unstandby node1

  1. 查看日志:tail -f /var/log/messages
  2. clustat/pcs status命令显示双机节点及服务状态正常。
  3. 命令执行成功,双机节点正常切换;
  4. 切换过程中,messages日志文件中无报错信息;
  5. clustat/pcs status命令显示双机节点及服务状态正常

025:关闭主机群集服务

  1. 如果RHCS集群环境中,主、备机均无法正常提供服务,那么可以手工启动或是冷备机的方式恢复服务,但在这之前需要先关闭集群中的服务进程:

#clusvcadm --s test_svc --m host2

redhat6

在两个节点执行同时进行操作

service rgmanager stop

service clvmd stop

service cman stop

redhat7

pcs cluster disable --all

  1. 执行clustat命令查看服务关闭情况;clustat 命令不存在
  2. 使用df、ping、"ip addr list"命令,确认群集共享资源已释放;
  3. 查看日志:tail -f /var/log/messages;
    1. 群集Service正常关闭;
    2. 群集共享资源已释放;
    3. 系统日志无报错;
    4. 群集各节点Cluster服务关闭;

026:手工恢复群集服务

  1. 在停止RHCS服务后,可按照以下步骤手工挂载资源,并启动服务:

网络IP地址:使用ifconfig命令,修改服务地址;

存储空间:

vgscan 扫描可用卷组;

vgdisplay 查看卷组信息;

importvg VG_NAME 导入卷组信息;

vgchange -ay VG_NAME 激活卷组;

lvscan 识别lv;
如果上述操作中,卷组无法在单机激活,则有可能是在/etc/lvm/lvm.conf中配置了volume_list和locking_type限制,只有带有相应TAG标签的卷组才能在相应主机激活,可按如下操作验证并调整:

#vgs -o +vg_tags 查看卷组标签信息

#vgchange -addtag `hostname` 共享_VG_NAME

#vgs -o +vg_tags 验证卷组标签是否已经添加】

文件系统:根据lvscan信息,mount相关文件系统;

配置文件:检查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;

检测数据库配置信息完备,尝试启动数据库(其间注意观察数据库日志信息);

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    2.
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。

027:群集服务冻结和解冻
redhat6

clusvcadm -Z 资源名字

redhat7

pcs status

pcs cluster standby node1(没有资源的节点)

pcs resource unmanager service (如果两个节点都有资源)

2) 解冻

redhat6

clusvcadm -U 资源名字

应用服务:根据应用服务启动顺序,启动各项应用服务。

  1. 查看日志:tail -f /var/log/messages
    1. 手工添加Service IP;
    2. 卷组可以正常在单机激活;
    3. lv信息正常;
    4. 在单机手工挂载共享存储资源;
    5. 启动数据库及应用。
相关推荐
小鱼小鱼.oO2 小时前
阿里云服务器安装nginx并配置前端资源路径(前后端部署到一台服务器并成功访问)
服务器·nginx·阿里云
资讯第一线3 小时前
Windows系统工具:WinToolsPlus 之 SQL Server Suspect/质疑/置疑/可疑/单用户等 修复
运维
惊起白鸽4504 小时前
LVS负载均衡
运维·负载均衡·lvs
Sapphire~5 小时前
Linux-07 ubuntu 的 chrome 启动不了
linux·chrome·ubuntu
伤不起bb5 小时前
NoSQL 之 Redis 配置与优化
linux·运维·数据库·redis·nosql
广东数字化转型5 小时前
nginx怎么使用nginx-rtmp-module模块实现直播间功能
linux·运维·nginx
love530love6 小时前
【笔记】在 MSYS2(MINGW64)中正确安装 Rust
运维·开发语言·人工智能·windows·笔记·python·rust
啵啵学习6 小时前
Linux 里 su 和 sudo 命令这两个有什么不一样?
linux·运维·服务器·单片机·ubuntu·centos·嵌入式
半桔6 小时前
【Linux手册】冯诺依曼体系结构
linux·缓存·职场和发展·系统架构
网硕互联的小客服7 小时前
如何利用Elastic Stack(ELK)进行安全日志分析
linux·服务器·网络·安全