HDFS-监控jstack脚本

monitor_nn_failover.sh

用途: 服务挂掉了,并且在日志中没有发现是什么原因导致服务挂掉,需要进一步分析当时挂掉时候的进程的jstack信息;

bash 复制代码
#!/bin/bash
LOG_DIR=/var/log/hdfs1
PREFIX=nn-jstack-
MAX_NR=20
SLEEP_INTERVAL=10
KUBECTL='kubectl -s https://127.0.0.1:6443 --certificate-authority=/srv/kubernetes/ca.pem --client-certificate=/srv/kubernetes/admin.pem --client-key=/srv/kubernetes/admin-key.pem'
hostname=$(hostname)
pod=$($KUBECTL get pods -o wide | grep ${hostname} | awk '/hdfs-namenode/ {print $1}')
pid_nn=$($KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 jps | awk '/NameNode/ {print $1}')
echo "Namenode pod is $pod and namenode pid is $pid_nn"
START_TIME=$(date +%s)
echo "=== Start at: $START_TIME"
while :
do
  # check if timeout happened
  last_timeout=$(grep "45000 millis timeout" $LOG_DIR/hadoop-hdfs-zkfc-${hostname}.log | tail -n 1)
  if [ -n "$last_timeout" ]; then
    last_time=${last_timeout%%,*}
    last_time=$(date -d "$last_time" +%s)
    if [ $last_time -gt $START_TIME ]; then
      break
    fi
  fi
  # collect jstack
  cur_time=$(date +%F-%T)
  echo $cur_time
  $KUBECTL exec $pod -c hadoop-hdfs-namenode-hdfs1 -- sudo -u hdfs jstack $pid_nn >$LOG_DIR/${PREFIX}${cur_time}.log 2>&1
  # remove oldest one
  nr=$(ls $LOG_DIR/${PREFIX}* | wc -l)
  if [ $nr -gt $MAX_NR ]; then
    oldest=$(ls -1tr $LOG_DIR/${PREFIX}* | head -n 1 )
    rm -f $oldest
  fi
  sleep $SLEEP_INTERVAL
done
pkg=${PREFIX}$(hostname)-$(date +%s).tgz
tar zcf $pkg $LOG_DIR/${PREFIX}*
rm -f $LOG_DIR/${PREFIX}*
echo "=== Done: $pkg"
相关推荐
GIS数据转换器3 分钟前
2025无人机在农业生态中的应用实践
大数据·网络·人工智能·安全·无人机
武子康15 分钟前
大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法
大数据·后端·flink
Lion Long37 分钟前
PB级数据洪流下的抉择:从大数据架构师视角,深度解析时序数据库选型与性能优化(聚焦Apache IoTDB)
大数据·性能优化·apache·时序数据库·iotdb
Lx3521 小时前
Flink背压机制:原理与调优策略
大数据
Lx3521 小时前
Flink容错机制:Checkpoint和Savepoint深入解析
大数据
QQ5416451212 小时前
【小增长电商软件分享】微信私域淘宝电商补单/做基础销量:如何有效控制粉丝错货、复购、订单插旗及客服转账返款等常见痛点|粉丝订单管理|电商鱼塘运营方案
大数据·电商私域粉丝管理·电商私域运营系统解决方案·粉丝订单关系系统
字节跳动数据平台3 小时前
多模态数据湖技术深化,Data Agent新能力发布!“认知”将决定企业上限
大数据
字节跳动数据平台4 小时前
得物×火山引擎:Data Agent驱动财务管理智能升级
大数据
想ai抽4 小时前
Spark的shuffle类型与对比
大数据·数据仓库·spark
智海观潮4 小时前
JVM垃圾回收器、内存分配与回收策略
java·大数据·jvm