hive 异常任务中间数据清理

hive在运行过程中,会发现 hdfs /tmp/hive/hive or hdfs 目录占用空间巨大!

hive在运行过程中会生产大量的中间会话在/tmp目录下,

如果hive正常运行结束,临时会话会被自动清理掉,

如果hive中断,或者异常退出,这些中间会话就会一直保存在hdfs上。必须手动清理掉!

#!/bin/bash

usage="Usage: cleanup.sh [days]"

if [ ! "$1" ]

then

echo $usage

exit 1

fi

now=$(date +%s)

hadoop fs -ls /tmp/hive/hdfs | grep "^d" | while read f; do

dir_date=echo $f | awk '{print $6}'

difference=(( ( now - ( d a t e − d " (date -d " (date−d"dir_date" +%s) ) / (24 * 60 * 60 ) ))

if [ difference -gt 1 ]; then

echo $f

hadoop fs -rm -r -skipTrash echo $f| awk '{ print $8 }';

fi

done

相关推荐
旺仔Sec1 天前
2026年广东省职业院校技能大赛中职组“大数据应用与服务“赛项任务书(三)
大数据·hadoop
晨曦5432101 天前
CentOS网络配置全解析:从ifconfig到实战
hadoop·虚拟机
SeaTunnel1 天前
Apache SeaTunnel 2.3.13 版本前瞻:核心引擎变化和 AI ETL 趋势值得关注
数据仓库·人工智能·apache·etl·seatunnel·数据同步
Elieal1 天前
Tomcat面试
数据仓库·hive·hadoop
RestCloud2 天前
ETL与数据湖Hudi的集成与操作
数据仓库·etl·hudi·数据同步·数据集成平台
苛子2 天前
实时数据同步工具横评:ETLCloud vs 帆软FDL,谁更适合企业数据平台?
数据仓库·etl
德昂信息dataondemand2 天前
ETL:解锁数据价值的 “黄金转换器
数据仓库·etl
ApacheSeaTunnel2 天前
(三)ODS/明细层落地设计要点:把数据接入层打造成“稳定可运维”的基础设施
数据库·数据仓库·数据湖·白鲸开源
网络工程小王2 天前
【大数据技术详解】——HDFS技术(学习笔记)
hadoop·hdfs·big data