HDFS-监控jstack脚本

monitor_nn_failover.sh

用途: 服务挂掉了,并且在日志中没有发现是什么原因导致服务挂掉,需要进一步分析当时挂掉时候的进程的jstack信息;

bash 复制代码
#!/bin/bash
LOG_DIR=/var/log/hdfs1
PREFIX=nn-jstack-
MAX_NR=20
SLEEP_INTERVAL=10
KUBECTL='kubectl -s https://127.0.0.1:6443 --certificate-authority=/srv/kubernetes/ca.pem --client-certificate=/srv/kubernetes/admin.pem --client-key=/srv/kubernetes/admin-key.pem'
hostname=$(hostname)
pod=$($KUBECTL get pods -o wide | grep ${hostname} | awk '/hdfs-namenode/ {print $1}')
pid_nn=$($KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 jps | awk '/NameNode/ {print $1}')
echo "Namenode pod is $pod and namenode pid is $pid_nn"
START_TIME=$(date +%s)
echo "=== Start at: $START_TIME"
while :
do
  # check if timeout happened
  last_timeout=$(grep "45000 millis timeout" $LOG_DIR/hadoop-hdfs-zkfc-${hostname}.log | tail -n 1)
  if [ -n "$last_timeout" ]; then
    last_time=${last_timeout%%,*}
    last_time=$(date -d "$last_time" +%s)
    if [ $last_time -gt $START_TIME ]; then
      break
    fi
  fi
  # collect jstack
  cur_time=$(date +%F-%T)
  echo $cur_time
  $KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 -- sudo -u hdfs jstack $pid_nn >$LOG_DIR/${PREFIX}${cur_time}.log 2>&1
  # remove oldest one
  nr=$(ls $LOG_DIR/${PREFIX}* | wc -l)
  if [ $nr -gt $MAX_NR ]; then
    oldest=$(ls -1tr $LOG_DIR/${PREFIX}* | head -n 1 )
    rm -f $oldest
  fi
  sleep $SLEEP_INTERVAL
done
pkg=${PREFIX}$(hostname)-$(date +%s).tgz
tar zcf $pkg $LOG_DIR/${PREFIX}*
rm -f $LOG_DIR/${PREFIX}*
echo "=== Done: $pkg"
相关推荐
Leo.yuan2 小时前
数据仓库建设全解析!
大数据·数据库·数据仓库·数据分析·spark
Aimyon_362 小时前
Apache Sqoop数据采集问题
hadoop·apache·sqoop
望获linux6 小时前
智能清洁机器人中的实时操作系统应用研究
大数据·linux·服务器·人工智能·机器人·操作系统
三个蔡7 小时前
Java求职者面试:从Spring Boot到微服务的技术深度探索
java·大数据·spring boot·微服务·kubernetes
Lilith的AI学习日记9 小时前
AI提示词(Prompt)终极指南:从入门到精通(附实战案例)
大数据·人工智能·prompt·aigc·deepseek
白鲸开源10 小时前
任务运维、循环任务死锁.....DolphinScheduler任务配置经验分享
大数据
小钊(求职中)11 小时前
ElasticSearch从入门到精通-覆盖DSL操作和Java实战
java·大数据·elasticsearch·搜索引擎·全文检索
西电研梦12 小时前
稳扎稳打,25西电生命科学技术学院(考研录取情况)
大数据·考研·生物医学工程·西安电子科技大学
ICT_SOLIDWORKS12 小时前
智诚科技苏州SOLIDWORKS授权代理商的卓越之选
大数据·人工智能·科技·软件工程
24k小善13 小时前
FlinkUpsertKafka深度解析
java·大数据·flink·云计算