hive 异常任务中间数据清理

hive在运行过程中,会发现 hdfs /tmp/hive/hive or hdfs 目录占用空间巨大!

hive在运行过程中会生产大量的中间会话在/tmp目录下,

如果hive正常运行结束,临时会话会被自动清理掉,

如果hive中断,或者异常退出,这些中间会话就会一直保存在hdfs上。必须手动清理掉!

#!/bin/bash

usage="Usage: cleanup.sh [days]"

if [ ! "$1" ]

then

echo $usage

exit 1

fi

now=$(date +%s)

hadoop fs -ls /tmp/hive/hdfs | grep "^d" | while read f; do

dir_date=echo $f | awk '{print $6}'

difference=(( ( now - ( d a t e − d " (date -d " (date−d"dir_date" +%s) ) / (24 * 60 * 60 ) ))

if [ difference -gt 1 ]; then

echo $f

hadoop fs -rm -r -skipTrash echo $f| awk '{ print $8 }';

fi

done

相关推荐
2501_9272835811 小时前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
孤雪心殇16 小时前
快速上手数仓基础知识
数据仓库·hive·spark
渣渣盟19 小时前
数据仓库 vs 数据湖 vs 湖仓一体:架构演进与选型
数据仓库·架构
隐于花海,等待花开1 天前
39.ROUND / FLOOR / CEIL 函数深度解析
hive·hadoop
juniperhan1 天前
Flink 系列第22篇:Flink SQL 参数配置与性能调优指南:从 Checkpoint 到聚合优化
大数据·数据仓库·分布式·sql·flink
juniperhan1 天前
Flink 系列第21篇:Flink SQL 函数与 UDF 全解读:类型推导、开发要点与 Module 扩展
java·大数据·数据仓库·分布式·sql·flink
看海的四叔2 天前
【SQL】SQL-管好你的字符串
大数据·数据库·hive·sql·数据分析·字符串
坚持就完事了2 天前
YARN资源管理器
大数据·linux·hadoop·学习
渣渣盟2 天前
大数据技术栈全景图:从零到一的入门路线(深度实战版)
大数据·hadoop·python·flink·spark
地球资源数据云2 天前
1960年-2024年中国棉花产量数据集
大数据·数据结构·数据仓库·人工智能