hive 异常任务中间数据清理

hive在运行过程中,会发现 hdfs /tmp/hive/hive or hdfs 目录占用空间巨大!

hive在运行过程中会生产大量的中间会话在/tmp目录下,

如果hive正常运行结束,临时会话会被自动清理掉,

如果hive中断,或者异常退出,这些中间会话就会一直保存在hdfs上。必须手动清理掉!

#!/bin/bash

usage="Usage: cleanup.sh [days]"

if [ ! "$1" ]

then

echo $usage

exit 1

fi

now=$(date +%s)

hadoop fs -ls /tmp/hive/hdfs | grep "^d" | while read f; do

dir_date=echo $f | awk '{print $6}'

difference=(( ( now - ( d a t e − d " (date -d " (date−d"dir_date" +%s) ) / (24 * 60 * 60 ) ))

if [ difference -gt 1 ]; then

echo $f

hadoop fs -rm -r -skipTrash echo $f| awk '{ print $8 }';

fi

done

相关推荐
宅小海12 小时前
14 配置Hadoop集群-配置历史和日志服务
linux·服务器·hadoop
珹洺13 小时前
Java-servlet(十)使用过滤器,请求调度程序和Servlet线程(附带图谱表格更好对比理解)
java·开发语言·前端·hive·hadoop·servlet·html
2401_8712905818 小时前
Hadoop 集群的常用命令
大数据·hadoop·分布式
chat2tomorrow19 小时前
数据仓库是什么?数据仓库的前世今生 (数据仓库系列一)
大数据·数据库·数据仓库·低代码·华为·spark·sql2api
只因只因爆21 小时前
mapreduce的工作原理
大数据·linux·hadoop·mapreduce
lix的小鱼1 天前
hadoop集群的常用命令
大数据·linux·hadoop
shouwangV61 天前
hive执行CTAS报错“Hive Runtime Error while processing row”
数据仓库·hive·hadoop
洋芋爱吃芋头1 天前
1. hadoop 集群的常用命令
hadoop
一个天蝎座 白勺 程序猿1 天前
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
数据仓库·hive·hadoop
今天我又学废了1 天前
Spark,配置hadoop集群1
大数据·hadoop·spark