hive 异常任务中间数据清理

hive在运行过程中,会发现 hdfs /tmp/hive/hive or hdfs 目录占用空间巨大!

hive在运行过程中会生产大量的中间会话在/tmp目录下,

如果hive正常运行结束,临时会话会被自动清理掉,

如果hive中断,或者异常退出,这些中间会话就会一直保存在hdfs上。必须手动清理掉!

#!/bin/bash

usage="Usage: cleanup.sh [days]"

if [ ! "$1" ]

then

echo $usage

exit 1

fi

now=$(date +%s)

hadoop fs -ls /tmp/hive/hdfs | grep "^d" | while read f; do

dir_date=echo $f | awk '{print $6}'

difference=(( ( now - ( d a t e − d " (date -d " (date−d"dir_date" +%s) ) / (24 * 60 * 60 ) ))

if [ difference -gt 1 ]; then

echo $f

hadoop fs -rm -r -skipTrash echo $f| awk '{ print $8 }';

fi

done

相关推荐
yt948328 小时前
如何在IDE中通过Spark操作Hive
ide·hive·spark
青春之我_XP8 小时前
【基于阿里云搭建数据仓库(离线)】Data Studio创建资源与函数
大数据·数据仓库·sql·dataworks·maxcompute·data studio
Leo.yuan16 小时前
实时数据仓库是什么?数据仓库设计怎么做?
大数据·数据库·数据仓库·数据分析·spark
火龙谷20 小时前
【hadoop】Davinci数据可视化工具的安装部署
大数据·hadoop·分布式
£菜鸟也有梦21 小时前
从0到1,带你走进Flink的世界
大数据·hadoop·flink·spark
隰有游龙1 天前
hadoop集群启动没有datanode解决
大数据·hadoop·分布式
viperrrrrrrrrr72 天前
大数据学习(129)-Hive数据分析
大数据·hive·学习
伍六星2 天前
图片上传问题解决方案与实践
大数据·hive·hadoop
后端码匠2 天前
Kafka 单机部署启动教程(适用于 Spark + Hadoop 环境)
hadoop·spark·kafka
TCChzp2 天前
Kafka入门-集群基础环境搭建(JDK/Hadoop 部署 + 虚拟机配置 + SSH 免密+Kafka安装启动)
java·hadoop·kafka