hive 异常任务中间数据清理

hive在运行过程中,会发现 hdfs /tmp/hive/hive or hdfs 目录占用空间巨大!

hive在运行过程中会生产大量的中间会话在/tmp目录下,

如果hive正常运行结束,临时会话会被自动清理掉,

如果hive中断,或者异常退出,这些中间会话就会一直保存在hdfs上。必须手动清理掉!

#!/bin/bash

usage="Usage: cleanup.sh [days]"

if [ ! "$1" ]

then

echo $usage

exit 1

fi

now=$(date +%s)

hadoop fs -ls /tmp/hive/hdfs | grep "^d" | while read f; do

dir_date=echo $f | awk '{print $6}'

difference=(( ( now - ( d a t e − d " (date -d " (date−d"dir_date" +%s) ) / (24 * 60 * 60 ) ))

if [ difference -gt 1 ]; then

echo $f

hadoop fs -rm -r -skipTrash echo $f| awk '{ print $8 }';

fi

done

相关推荐
isNotNullX6 小时前
怎么理解ETL增量抽取?
数据库·数据仓库·etl·企业数字化
Bug快跑-19 小时前
云原生微服务环境下分布式事务优化实践——提升系统一致性与高并发处理能力
hadoop
叡鳍9 小时前
Hive---案例7-6 列转行
数据仓库·hive·hadoop
❀͜͡傀儡师12 小时前
docker-compose一键部署Hadoop集群
hadoop·docker·容器
干就完事了1 天前
Hive内置函数
数据仓库·hive·hadoop
布吉岛没有岛_1 天前
Hadoop学习_week1
大数据·hadoop
lijun_xiao20091 天前
Apache Hadoop-学习笔记1
hadoop·学习·apache
q***07142 天前
Spring Boot 从 2.7.x 升级到 3.3注意事项
数据库·hive·spring boot
阿杜杜不是阿木木2 天前
在 Hadoop 生态使用 JuiceFS,并为Hive提供HDFS存储安装指南
hive·hadoop·hdfs
小坏讲微服务2 天前
MaxWell中基本使用原理 完整使用 (第一章)
大数据·数据库·hadoop·sqoop·1024程序员节·maxwell