Ansible + Shell 服务器巡检脚本

脚本概述

这是一个用于服务器日常巡检的 Shell 脚本,主要功能包括:

  • 检查多台主机的网络连通性
  • 监控CPU、内存和磁盘使用率
  • 生成详细的巡检报告
  • 通过企业微信发送告警通知

核心技术点

1. 主机批量管理

  • 使用Ansible工具远程执行命令和脚本
  • 通过主机清单文件 (ip_file) 管理所有待巡检主机

2. 资源监控技术

  • CPU监控:通过top命令获取CPU总使用率
  • 内存监控:调用自定义脚本mem.sh获取内存使用率
  • 磁盘监控:调用自定义脚本disk.sh获取磁盘使用率

3. 阈值告警机制

  • 设置多级告警阈值(警告/严重)
  • 使用颜色标记不同严重级别的问题
  • 问题计数器统计异常主机数量

**4. 报告生成系统(**生成三种报告文件)

  • 完整巡检结果(result_file)
  • 问题主机报告(problem_file)
  • 最终汇总报告(final_report)
  • 使用 Markdown 格式增强可读性

5. 通知集成

  • 通过企业微信Webhook API发送告警
  • 支持富文本格式(HTML样式标记)
  • 自动包含日期信息和问题摘要

脚本内容

注意事项:该脚本依赖 Ansible 工具,执行该脚本前需要提前做好以下准备工作:

  • 安装Ansible
  • 配置 ssh 免密登录(在控制节点生成SSH密钥对,并将公钥分发到所有被管理节点)
  • 配置 Ansible 主机清单 Inventory 文件(默认/etc/ansible/hosts),将脚本中ip_file中的ip都加入到 Ansible 主机清单文件中。

整体的 Shell 脚本内容如下:

bash 复制代码
$ cat /path/dailycheck.sh 
#!/bin/bash 

# ip_file 用于存放需要巡检的主机清单
ip_file="/path1/hosts"

# result_file 用于存所有主机的巡检结果
result_file="/path1/resulted/resulted.$(date +%Y%m%d)"

# problem_file 用于存放有问题/告警的主机信息
problem_file="/path1/problems/problems.$(date +%Y%m%d)"

# final_report 存放巡检报告,也是发到企微群聊的最终报告
final_report=/path1/resulted/final_report_$(date +%Y%m%d).log

# 检查 ip_file 文件是否存在,不存在则终止脚本执行
[ ! -f "$ip_file" ] && echo "找不到ip文件: $ip_file" && exit 1

# 初始化结果文件
echo "<font color="blue">IT生产环境巡检结果</font>" > $result_file
echo -e "<font color="blue">告警详情:</font>" > $problem_file

# 定义阈值
CPU_WARNING=90
CPU_CRITICAL=95
MEM_WARNING=90
MEM_CRITICAL=95
DISK_WARNING=90
DISK_CRITICAL=95
 
# 定义问题计数器
problem_count=0

# for 循环巡检主机清单中的主机
for ip in `cat $ip_file`;do
    # 初始化变量
    has_problem=0
    problem_details=()
    normal_details=()
    
    # 记录基础信息到完整日志
    echo -e "\n===== 主机 $ip 巡检结果 =====" >> $result_file
    
    # 检查服务器到网关的网络连通性
    ansible $ip -m shell -a "ping -c 2 -i 1 192.168.175.254 " > /dev/null 2>&1
    if [ $? -eq 0 ];then
        network_status="网络: 可达"
        echo "网络正常" >> $result_file
    else 
        network_status="<font color="red">网络不可达!</font>"
        problem_details+=("$ip $network_status")
        echo "网络状态: 不可达" >> $result_file
        has_problem=1
    fi 


    # 检查cpu使用率
    cpu_usage=$(ansible $ip -m shell -a 'top -bn1 | grep "Cpu(s)" | awk "{print \$2 + \$4}"' 2>/dev/null | sed -n '2p' | cut -d '.' -f1)
    if [ -n "$cpu_usage" ]; then
        if [ "$cpu_usage" -ge $CPU_CRITICAL ]; then
            cpu_display="<font color="red">${cpu_usage}%(严重)</font>"
            problem_details+=("CPU: $cpu_display")
            has_problem=1
        elif [ "$cpu_usage" -ge $CPU_WARNING ]; then
            cpu_display="<font color="yellow">${cpu_usage}%(警告)</font>"
            problem_details+=("CPU: $cpu_display")
            has_problem=1
        else
            cpu_display="${cpu_usage}%"
       fi
        echo "CPU使用率: $cpu_display" >> $result_file
    else
        echo "CPU使用率: 数据获取失败" >> $result_file
    fi

    # 检查内存使用率
    mem_usage=$(ansible $ip -m script -a '/path1/mem.sh' | sed -n 10p | cut -d'"' -f2 | cut -d '.' -f1)
    if [ -n "$mem_usage" ]; then
        if [ "$mem_usage" -ge $MEM_CRITICAL ]; then
            mem_display="<font color="red">${mem_usage}%(严重)</font>"
            problem_details+=("内存: $mem_display")
            has_problem=1
        elif [ "$mem_usage" -ge $MEM_WARNING ]; then
            mem_display="<font color="yellow">${mem_usage}%(警告)</font>"
            problem_details+=("内存: $mem_display")
            has_problem=1
        else
            mem_display="${mem_usage}%"
        fi
        echo "内存使用率: $mem_display" >> $result_file
    else
        echo "内存使用率: 数据获取失败" >> $result_file
    fi

    # 检查磁盘使用率
    disk_usage=$(ansible $ip -m script -a '/path1/disk.sh' | sed -n 10p | cut -d'"' -f2 | cut -d '.' -f1)
    if [ -n "$disk_usage" ]; then
        if [ "$disk_usage" -ge $DISK_CRITICAL ]; then
            disk_display="<font color="red">${disk_usage}%(严重)</font>"
            problem_details+=("磁盘: $disk_display")
            has_problem=1
        elif [ "$disk_usage" -ge $DISK_WARNING ]; then
            disk_display="<font color="yellow">${disk_usage}%(警告)</font>"
            problem_details+=("磁盘: $disk_display")
            has_problem=1
        else
            disk_display="${disk_usage}%"
        fi
        echo "磁盘使用率: $disk_display" >> $result_file
    else
        echo "磁盘使用率: 数据获取失败" >> $result_file
    fi
   
    # 记录问题主机
    if [ $has_problem -eq 1 ]; then
        echo "\n主机: $ip \n$network_status" >> $problem_file
        for detail in "${problem_details[@]}"; do
            echo "$detail" >> "$problem_file"
        done
        echo "" >> "$problem_file"
        problem_count=$((problem_count+1))
    fi
    
done

# 生成最终报告
total_hosts=$(cat "$ip_file" | wc -l)
{
    echo "## 巡检日期: $(date +%Y-%m-%d)"
    echo "## 巡检对象: IT生产环境"
    echo "## 总主机数: $total_hosts 台"
    echo "## 告警主机: $problem_count 台"
    if [ $problem_count -gt 0 ]; then
        cat $problem_file
    else
        echo "<font color="green">本次巡检无异常!</font>"
    fi
} > $final_report

# 发送异常报告到企业微信
WEBHOOK_URL="https://qyapi.weixin.qq.com/cgi-bin/webhook/send?key=xxxxxxxxxxxxxxxx"
FINAL_REPORT=`cat $final_report`
curl -X POST -H 'Content-Type: application/json' -d "{\"msgtype\": \"markdown\", \"markdown\": {\"content\": \"$FINAL_REPORT\"}}" $WEBHOOK_URL

可以添加 crond 定时任务,周期性执行巡检脚本

bash 复制代码
$ crontab -l
0 8 * * 1-5 /path1/dailycheck.sh

巡检脚本中嵌套的脚本有:

  • mem.sh 脚本,用于获取内存使用率
bash 复制代码
$ cat /path1/ 
#!/bin/bash
free -m | awk '/Mem:/ {printf("%.2f\n", $3/$2 * 100.0)}'
  • disk.sh 脚本,用于获取磁盘使用率
bash 复制代码
$ cat /path1/disk.sh 
#!/bin/bash
df -Th | grep -E '/\s*$|^/\s*$' | awk '{print $6}' | tr -d '%'

巡检报告

生成的巡检报告效果如下:

相关推荐
大母猴啃编程1 小时前
Linux权限
linux·运维·服务器
为什么要内卷,摆烂不香吗1 小时前
LVS部署DR模式集群
服务器·数据库·lvs
厦门辰迈智慧科技有限公司3 小时前
高速公路自动化安全监测主要内容
运维·物联网·安全·自动化
cpsvps4 小时前
香港服务器SSH安全加固方案与密钥认证实践
服务器·安全·ssh
运维开发王义杰4 小时前
告别手动迁移:使用 PowerShell 一键导出 IIS 配置,让服务器迁移更轻松
运维·服务器·windows
阿巴~阿巴~4 小时前
深入理解Linux文件操作:stdin/stdout/stderr与C语言文件函数全解析
linux·运维·服务器
阿巴~阿巴~4 小时前
深度解析Linux文件I/O三级缓冲体系:用户缓冲区→标准I/O→内核页缓存
linux·运维·服务器
tan77º4 小时前
【Linux网络编程】应用层协议 - HTTP
linux·服务器·网络·c++·http·https·tcp
2301_785251414 小时前
上网行为管理-web认证服务
运维·服务器·网络
帅帅气气的黑猫警长5 小时前
Ubuntu环境下的K3S集群搭建
服务器·ubuntu·k8s