背景
在现代分布式系统中,高可用性(High Availability, HA)是一个至关重要的设计目标。为了实现高可用性,通常会采用双中心或多中心架构,并结合负载均衡技术(如Nginx)和高可用工具(如Keepalived)来确保服务的连续性。然而,在高可用环境中进行服务管理时,可能会遇到一些复杂的问题,尤其是在批量关闭服务时。
本文将以一个实际的案例为基础,详细探讨如何优化Nginx服务管理脚本,以解决在高可用环境下批量关闭Nginx服务时遇到的问题。
问题描述
环境说明
- 双中心架构:每个中心有4台Web服务器,每台服务器上运行Nginx和Keepalived。
- VIP(虚拟IP)管理:每个中心通过Keepalived管理一个VIP,用于实现高可用性。
- 高可用演练:在演练过程中,需要关闭一个中心的所有Web服务器。
问题现象
在使用初始脚本批量关闭Nginx服务时,发现部分服务器的Nginx服务无法一次性关闭,需要多次执行关闭操作才能成功。经过分析,发现问题可能与Keepalived的VIP漂移过程有关。
问题分析
- Keepalived VIP漂移的影响 :
- 当批量关闭Nginx服务时,Keepalived会检测到服务不可用,并将VIP漂移到其他节点。
- 在VIP漂移过程中,Nginx服务可能无法立即关闭,导致部分服务器需要多次执行关闭操作。
- 脚本的局限性 :
- 初始脚本仅尝试关闭Nginx服务一次,未考虑VIP漂移过程中的延迟。
- 缺乏重试机制,无法应对服务关闭失败的情况。
初始脚本分析
以下是初始的Nginx服务管理脚本:
plain
#!/bin/bash
# 获取IP地址
IP_ADDRESS=$(hostname -I | awk '{print $1}')
# 服务相关变量
SERVICE_NAME="nginx"
SERVICE_DIR="/app/metabank/nginx/sbin"
START_SCRIPT="nginx"
STOP_SCRIPT="nginx -s quit"
FORCE_STOP_SCRIPT="pkill -9 nginx"
# 检查服务运行状态的函数
check_service_health() {
if [ ! -d "$SERVICE_DIR" ]; then
echo "指定的服务目录不存在: $SERVICE_DIR"
echo "非0"
return 2
fi
if systemctl is-active --quiet "$SERVICE_NAME"; then
# 服务正在运行
return 0
else
# 服务未运行
return 1
fi
}
# 输出服务的当前状态
print_status() {
echo "--------------------------------------------------------------------------------"
echo "| IP地址 | 服务名 | 状态 |"
echo "--------------------------------------------------------------------------------"
check_service_health
local status_code=$?
local status="未知"
case $status_code in
0) status="运行中" ;;
1) status="关闭" ;;
2) status="服务目录不存在" ;;
esac
printf "| %-18s | %-14s | %-8s |\n" "$IP_ADDRESS" "$SERVICE_NAME" "$status"
echo "--------------------------------------------------------------------------------"
echo "0"
}
# 启动服务的函数
start_service() {
local force=false
if [[ "$*" == *"FORCE"* ]]; then
force=true
fi
if [ ! -d "$SERVICE_DIR" ]; then
echo "服务目录不存在:$SERVICE_DIR"
echo "非0"
return 1
fi
echo "正在检查并停止任何已存在的服务实例"
stop_service FORCE
echo "正在启动服务..."
if systemctl start "$SERVICE_NAME"; then
sleep 5
check_service_health
if [ $? -eq 0 ]; then
echo "服务启动成功。"
else
echo "服务启动失败,请检查日志。"
echo "非0"
return 1
fi
else
echo "服务启动失败,请检查日志。"
echo "非0"
return 1
fi
echo "0"
}
# 停止服务的函数
stop_service() {
local force=false
if [[ "$*" == *"FORCE"* ]]; then
force=true
fi
if [ ! -d "$SERVICE_DIR" ]; then
echo "服务目录不存在:$SERVICE_DIR"
echo "非0"
return 1
fi
if systemctl is-active --quiet "$SERVICE_NAME"; then
echo "正在尝试停止服务..."
if systemctl stop "$SERVICE_NAME"; then
sleep 3
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已成功停止。"
else
if $force; then
echo "正在强制停止服务..."
eval "$FORCE_STOP_SCRIPT"
sleep 2
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已被强制停止。"
else
echo "强制停止服务失败。"
echo "非0"
return 1
fi
else
echo "尝试停止服务失败。"
echo "非0"
return 1
fi
fi
else
if $force; then
echo "正在强制停止服务..."
eval "$FORCE_STOP_SCRIPT"
sleep 2
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已被强制停止。"
else
echo "强制停止服务失败。"
echo "非0"
return 1
fi
else
echo "服务停止命令执行失败。"
echo "非0"
return 1
fi
fi
else
echo "无需停止服务,服务已处于停止状态。"
fi
echo "0"
}
# 主执行逻辑
action=""
force=false
# 解析参数
for arg in "$@"; do
case "${arg^^}" in
START|STOP|STATUS|CHECK)
if [ "${arg^^}" = "CHECK" ]; then
action="STATUS"
else
action="${arg^^}"
fi
;;
FORCE)
force=true
;;
*)
echo "未知参数: $arg"
echo "用法: $0 {start|stop|status|check} [FORCE]"
echo "非0"
exit 1
;;
esac
done
# 如果单独使用 FORCE 参数,默认执行 stop FORCE
if [[ "$force" == true && -z "$action" ]]; then
action="STOP"
fi
# 执行操作
case "$action" in
START)
if $force; then
start_service FORCE
else
start_service
fi
print_status
;;
STOP)
if $force; then
stop_service FORCE
else
stop_service
fi
print_status
;;
STATUS)
print_status
;;
*)
echo "用法: $0 {start|stop|status|check} [FORCE]"
echo "非0"
exit 1
;;
esac
初始脚本的问题
- 缺乏重试机制:在关闭Nginx服务时,如果第一次关闭失败,脚本不会尝试再次关闭。
- 未考虑VIP漂移的延迟:在VIP漂移过程中,Nginx服务可能无法立即关闭,但脚本未对此进行处理。
优化方案
为了解决上述问题,我们对脚本进行了以下优化:
- 增加重试机制 :
- 在关闭Nginx服务时,增加多次重试机制,定义间隔时间和重试次数变量。
- 通过重试机制,确保在VIP漂移过程中能够成功关闭Nginx服务。
- 保持脚本独立性 :
- 不修改Keepalived的配置或脚本,保持Nginx服务管理的独立性。
以下是优化后的脚本:
plain
#!/bin/bash
# 获取IP地址
IP_ADDRESS=$(hostname -I | awk '{print $1}')
# 服务相关变量
SERVICE_NAME="nginx"
SERVICE_DIR="/app/metabank/nginx/sbin"
START_SCRIPT="nginx"
STOP_SCRIPT="nginx -s quit"
FORCE_STOP_SCRIPT="pkill -9 nginx"
# 定义间隔时间和重试次数
RETRY_INTERVAL=5 # 每次重试的间隔时间(秒)
MAX_RETRIES=5 # 最大重试次数
# 检查服务运行状态的函数
check_service_health() {
if [ ! -d "$SERVICE_DIR" ]; then
echo "指定的服务目录不存在: $SERVICE_DIR"
echo "非0"
return 2
fi
if systemctl is-active --quiet "$SERVICE_NAME"; then
# 服务正在运行
return 0
else
# 服务未运行
return 1
fi
}
# 输出服务的当前状态
print_status() {
echo "--------------------------------------------------------------------------------"
echo "| IP地址 | 服务名 | 状态 |"
echo "--------------------------------------------------------------------------------"
check_service_health
local status_code=$?
local status="未知"
case $status_code in
0) status="运行中" ;;
1) status="关闭" ;;
2) status="服务目录不存在" ;;
esac
printf "| %-18s | %-14s | %-8s |\n" "$IP_ADDRESS" "$SERVICE_NAME" "$status"
echo "--------------------------------------------------------------------------------"
echo "0"
}
# 启动服务的函数
start_service() {
local force=false
if [[ "$*" == *"FORCE"* ]]; then
force=true
fi
if [ ! -d "$SERVICE_DIR" ]; then
echo "服务目录不存在:$SERVICE_DIR"
echo "非0"
return 1
fi
echo "正在检查并停止任何已存在的服务实例"
stop_service FORCE
echo "正在启动服务..."
if systemctl start "$SERVICE_NAME"; then
sleep 5
check_service_health
if [ $? -eq 0 ]; then
echo "服务启动成功。"
else
echo "服务启动失败,请检查日志。"
echo "非0"
return 1
fi
else
echo "服务启动失败,请检查日志。"
echo "非0"
return 1
fi
echo "0"
}
# 停止服务的函数
stop_service() {
local force=false
if [[ "$*" == *"FORCE"* ]]; then
force=true
fi
if [ ! -d "$SERVICE_DIR" ]; then
echo "服务目录不存在:$SERVICE_DIR"
echo "非0"
return 1
fi
if systemctl is-active --quiet "$SERVICE_NAME"; then
echo "正在尝试停止服务..."
if systemctl stop "$SERVICE_NAME"; then
sleep 3
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已成功停止。"
else
if $force; then
echo "正在强制停止服务..."
eval "$FORCE_STOP_SCRIPT"
sleep 2
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已被强制停止。"
else
echo "强制停止服务失败。"
echo "非0"
return 1
fi
else
echo "尝试停止服务失败。"
echo "非0"
return 1
fi
fi
else
if $force; then
echo "正在强制停止服务..."
eval "$FORCE_STOP_SCRIPT"
sleep 2
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已被强制停止。"
else
echo "强制停止服务失败。"
echo "非0"
return 1
fi
else
echo "服务停止命令执行失败。"
echo "非0"
return 1
fi
fi
else
echo "无需停止服务,服务已处于停止状态。"
fi
# 增加间隔时间后再次检查并关闭Nginx
local retry_count=0
while [ $retry_count -lt $MAX_RETRIES ]; do
retry_count=$((retry_count + 1))
echo "第${retry_count}次重试关闭Nginx服务..."
echo "等待${RETRY_INTERVAL}秒后再次检查Nginx服务状态..."
sleep $RETRY_INTERVAL
if systemctl is-active --quiet "$SERVICE_NAME"; then
echo "Nginx服务仍在运行,再次尝试停止..."
if systemctl stop "$SERVICE_NAME"; then
sleep 3
if ! systemctl is-active --quiet "$SERVICE_NAME"; then
echo "服务已成功停止。"
break
else
echo "再次尝试停止服务失败。"
fi
else
echo "再次尝试停止服务失败。"
fi
else
echo "Nginx服务已停止。"
break
fi
done
if [ $retry_count -eq $MAX_RETRIES ]; then
echo "已达到最大重试次数(${MAX_RETRIES}),停止服务失败。"
echo "非0"
return 1
fi
echo "0"
}
# 主执行逻辑
action=""
force=false
# 解析参数
for arg in "$@"; do
case "${arg^^}" in
START|STOP|STATUS|CHECK)
if [ "${arg^^}" = "CHECK" ]; then
action="STATUS"
else
action="${arg^^}"
fi
;;
FORCE)
force=true
;;
*)
echo "未知参数: $arg"
echo "用法: $0 {start|stop|status|check} [FORCE]"
echo "非0"
exit 1
;;
esac
done
# 如果单独使用 FORCE 参数,默认执行 stop FORCE
if [[ "$force" == true && -z "$action" ]]; then
action="STOP"
fi
# 执行操作
case "$action" in
START)
if $force; then
start_service FORCE
else
start_service
fi
print_status
;;
STOP)
if $force; then
stop_service FORCE
else
stop_service
fi
print_status
;;
STATUS)
print_status
;;
*)
echo "用法: $0 {start|stop|status|check} [FORCE]"
echo "非0"
exit 1
;;
esac
总结
通过增加重试机制,我们成功解决了在高可用环境下批量关闭Nginx服务时部分服务器无法一次性关闭的问题。这种优化方式不仅简单有效,而且保持了脚本的独立性,避免了与其他服务管理的耦合。
在实际运维工作中,面对复杂的生产环境,我们需要灵活运用各种技术手段,确保系统的高可用性和稳定性。希望这篇博客对大家在类似场景下的工作有所帮助。