Hive-定时清理无用的临时表

背景:

有一个临时库,大家平时开发过程中比较常用,这个库的表的生命周期没有得到很好的管理,日积月累导致无用表增多,所以跟运维提了个方案,定期清理。提出了一个比较简单的方案。

解决方案:

show u the code

表规范如下

表名称:temp_xxxx(邮箱前缀)_xxxxx(自由发挥,不建议太长)_expyyyyMMdd(过期日期20241126)

清理规则如下

  1. 不符合上述规范的表直接清理或者rename
  2. 超过表的过期时间的清理或者rename

实现方案:

方案一:

这个版本的属于最常规的思路,如果清理的无用表较多的时候可能性能会稍微低些。

bash 复制代码
#!/bin/bash

# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"

# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)

# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")

# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"

# 遍历所有表
for TABLE in $TABLES; do
    if [[ $TABLE =~ $VALID_PATTERN ]]; then
        # 提取过期日期
        EXP_DATE=${BASH_REMATCH[1]}
        
        # 检查是否过期
        if [[ $CURRENT_DATE -gt $EXP_DATE ]]; then
            echo "Deleting expired table: ${TABLE}"
            $BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"
        fi
    else
        # 删除不符合规范的表
        echo "Deleting invalid table: ${TABLE}"
        $BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "DROP TABLE IF EXISTS ${HIVE_DB}.${TABLE};"
    fi
done

echo " cleanup completed."

ps:上面的方案我是用的是beeline是因为集群直接使用hive -e 出来的表名很不规整。条件允许的可以直接用hive -e

对性能有要求的同学可能发现了,每次都要起一次beeline 客户端。效率堪忧。所以给出一个优化的方案。

方案二:

bash 复制代码
#!/bin/bash

# Hive 配置
HIVE_DB="cusc_tmp_tmp_test_bd"
BEELINE_CMD="beeline"
BEELINE_URL="jdbc:hive2://<hive_server_host>:<hive_server_port>"
BEELINE_USER="<your_username>"
BEELINE_PASSWORD="<your_password>"

# 获取当前日期
CURRENT_DATE=$(date +%Y%m%d)

# 准备SQL脚本
SQL_SCRIPT="/tmp/cleanup_tables.sql"

# 初始化SQL脚本
echo "USE ${HIVE_DB};" > "${SQL_SCRIPT}"

# 获取所有表名
TABLES=$($BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -e "SHOW TABLES IN ${HIVE_DB};")

# 正则表达式匹配表名格式
VALID_PATTERN="^temp_[^_]+_[^_]+_exp([0-9]{8})$"

# 遍历所有表
for TABLE in $TABLES; do
    if [[ $TABLE =~ $VALID_PATTERN ]]; then
        # 提取过期日期
        EXP_DATE=${BASH_REMATCH[1]}
        
        # 检查是否过期
        if [[ $CURRENT_DATE -gt $EXP_DATE ]]; then
            echo "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"
            echo "Marked for deletion: ${TABLE}"
        fi
    else
        # 删除不符合规范的表
        echo "DROP TABLE IF EXISTS ${TABLE};" >> "${SQL_SCRIPT}"
        echo "Marked for deletion (invalid name): ${TABLE}"
    fi
done

# 执行SQL脚本
$BEELINE_CMD -u "${BEELINE_URL}" -n "${BEELINE_USER}" -p "${BEELINE_PASSWORD}" --silent=true --showHeader=false -f "${SQL_SCRIPT}"

# 清理临时SQL文件
rm -f "${SQL_SCRIPT}"

echo "cleanup completed."
  1. 方案二把需要清理的表放到了一个文件里,然后直接一次性执行一个清理语句。减少了交互,提升了效率

总结:

方案比较简单粗暴,如果想要友好一些的,可以做rename处理,比如把表名加上trash,或者把每日待删除的表先发一个邮件给到开发的小伙伴,确认无误之后再最物理删除。具体情况根据团队的实际情况来定即可。

相关推荐
Database_Cool_10 小时前
阿里云 AnalyticDB MySQL 免运维实践:分析型数据库不需要专人运维
数据库·数据仓库·mysql·阿里云
段一凡-华北理工大学10 小时前
工业领域的Hadoop架构学习~系列文章09:HBase列式数据库
数据库·人工智能·hadoop·架构·hbase·高炉炼铁·高炉炼铁智能化
muddjsv10 小时前
Hadoop 与 HBase 深度剖析:从架构原理到实战应用
hadoop·架构·hbase
阿坤带你走近大数据11 小时前
GREENPLUM的介绍
数据仓库·postgresql·pgsql·mpp
段一凡-华北理工大学11 小时前
工业领域的Hadoop架构学习~系列文章10:数据序列化与压缩
大数据·人工智能·hadoop·分布式·学习·工业智能体·高炉炼铁智能化
Database_Cool_12 小时前
MySQL 数据分析慢怎么办?迁移到阿里云 AnalyticDB MySQL 实现百倍加速
数据仓库·mysql·阿里云·数据分析
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章08:Flink流处理引擎
人工智能·hadoop·学习·架构·flink·高炉炼铁·高炉炼铁智能化
段一凡-华北理工大学1 天前
工业领域的Hadoop架构学习~系列文章07:Spark内存计算引擎
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉炼铁智能化
RestCloud2 天前
从架构师视角看ETL工具选型:如何构建可演进的数据集成平台
数据仓库·etl·cdc·数据处理·数据传输·elt
卷毛迷你猪2 天前
快速实验篇(A3)基于 Hive 的气象数据数仓构建与干旱指标初步分析
大数据·hadoop·分布式