HDFS-监控jstack脚本

monitor_nn_failover.sh

用途: 服务挂掉了,并且在日志中没有发现是什么原因导致服务挂掉,需要进一步分析当时挂掉时候的进程的jstack信息;

bash 复制代码
#!/bin/bash
LOG_DIR=/var/log/hdfs1
PREFIX=nn-jstack-
MAX_NR=20
SLEEP_INTERVAL=10
KUBECTL='kubectl -s https://127.0.0.1:6443 --certificate-authority=/srv/kubernetes/ca.pem --client-certificate=/srv/kubernetes/admin.pem --client-key=/srv/kubernetes/admin-key.pem'
hostname=$(hostname)
pod=$($KUBECTL get pods -o wide | grep ${hostname} | awk '/hdfs-namenode/ {print $1}')
pid_nn=$($KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 jps | awk '/NameNode/ {print $1}')
echo "Namenode pod is $pod and namenode pid is $pid_nn"
START_TIME=$(date +%s)
echo "=== Start at: $START_TIME"
while :
do
  # check if timeout happened
  last_timeout=$(grep "45000 millis timeout" $LOG_DIR/hadoop-hdfs-zkfc-${hostname}.log | tail -n 1)
  if [ -n "$last_timeout" ]; then
    last_time=${last_timeout%%,*}
    last_time=$(date -d "$last_time" +%s)
    if [ $last_time -gt $START_TIME ]; then
      break
    fi
  fi
  # collect jstack
  cur_time=$(date +%F-%T)
  echo $cur_time
  $KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 -- sudo -u hdfs jstack $pid_nn >$LOG_DIR/${PREFIX}${cur_time}.log 2>&1
  # remove oldest one
  nr=$(ls $LOG_DIR/${PREFIX}* | wc -l)
  if [ $nr -gt $MAX_NR ]; then
    oldest=$(ls -1tr $LOG_DIR/${PREFIX}* | head -n 1 )
    rm -f $oldest
  fi
  sleep $SLEEP_INTERVAL
done
pkg=${PREFIX}$(hostname)-$(date +%s).tgz
tar zcf $pkg $LOG_DIR/${PREFIX}*
rm -f $LOG_DIR/${PREFIX}*
echo "=== Done: $pkg"
相关推荐
藦卡机器人6 小时前
中国工业机器人发展现状
大数据·人工智能·机器人
Simon_lca7 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售
黄焖鸡能干四碗9 小时前
网络安全建设实施方案(Word文件参考下载)
大数据·网络·人工智能·安全·web安全·制造
云境筑桃源哇10 小时前
马踏春风 为爱启航 | 瑞派宠物医院(南部新城旗舰店)盛大开业!打造宠物医疗新标杆!
大数据·宠物
xixixi7777710 小时前
2026 年 03 月 20 日 AI+通信+安全行业日报(来更新啦)
大数据·人工智能·安全·ai·大模型·通信
F36_9_10 小时前
大数据治理平台选型避坑:2026 年 8 大主流系统实测
大数据·数据治理
成长之路51411 小时前
【实证分析】A股上市公司企业劳动力需求数据集(2000-2023年)
大数据
奔跑的呱呱牛11 小时前
GeoJSON 在大数据场景下为什么不够用?替代方案分析
java·大数据·servlet·gis·geojson
Lab_AI11 小时前
电池材料行业数据管理新突破:AI4S驱动的科学数据平台正在重塑电池材料开发范式
大数据·人工智能·ai4s·电池材料开发·电池材料研发·电池材料创新·ai材料研发
FindAI发现力量11 小时前
智能工牌:线下销售场景的数字化赋能解决方案
大数据·人工智能·销售管理·ai销售·ai销冠·销售智能体