使用 PySpark 批量清理 Hive 表历史分区


使用 PySpark 批量清理 Hive 表历史分区

在大数据平台中,Hive 表通常采用分区方式存储数据,以提升查询效率和数据管理的灵活性。随着数据的不断积累,历史分区会越来越多,既占用存储空间,也影响元数据管理性能。因此,定期清理过期的历史分区是数据治理的重要环节。本文将介绍如何利用 PySpark 批量清理 Hive 表的历史分区。

一、背景说明

Hive 分区表常用于按时间(如按天、月)组织数据。随着时间推移,早期的分区数据可能已不再需要,但这些分区依然占用 HDFS 空间和 Hive 元数据。手动删除分区效率低且容易出错,采用 PySpark 可以实现自动化、批量化的分区清理。

二、实现思路

  1. 通过 SparkSession 连接 Hive(可以通过hive引擎执行)。
  2. 获取目标表的所有分区信息。
  3. 根据设定的保留策略(如保留最近 N 天),筛选出需要删除的历史分区。
  4. 批量执行分区删除操作。

三、代码实现

以下为 PySpark 批量清理 Hive 表历史分区的示例代码:

python:clean_hive_partitions.py 复制代码
#******************************************************************#
##author: david.zhou
##create time: 2025-02-26 13:24:11
#******************************************************************#
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from pyspark.sql import SparkSession
from datetime import datetime, timedelta
import logging

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
    )


 # 生成需要检查的历史日期列表(检查1098天的历史分区)
#check_days = 1098
TABLE_PARTITON_CHECK_DAYS = 100

# 配置要处理的表和保留天数
TABLES_CONFIG = {
    'ods.ods_sec_admin_operate_log': 60,
    'sale.dwd_pc_wx_msg_df': 60
}


def is_external_table(spark, table_name):
    """判断 Hive 表是否为外部表"""
    # 查询表的元数据
    result = spark.sql(f"DESCRIBE FORMATTED {table_name}").collect()
    
    # 查找是否包含 "EXTERNAL" 标志
    for row in result:
        if 'EXTERNAL' in row[1]:
            print(f"{table_name} is_external_table result is {row}")
            return True
    return False


def get_spark_session():
    return SparkSession.builder \
        .appName("HivePartitionCleaner") \
        .enableHiveSupport() \
        .config("spark.sql.sources.partitionOverwriteMode", "dynamic") \
        .getOrCreate()

def generate_partition_dates(end_date, days):
    """生成需要检查的历史分区日期列表"""
    dates = []
    current = end_date
    for i in range(days):
        dates.append(current.strftime('%Y%m%d'))
        current = current - timedelta(days=1)
    return dates


# 检查分区是否存在
def check_partition_exists(spark, table_name, partition_spec):
    partitions = spark.sql(f"SHOW PARTITIONS {table_name} PARTITION ({partition_spec}) ").collect()
    if not partitions:
        return False
    else:
        return True

   

def drop_partitions(spark, table_name, retention_days):
    """按日期循环删除历史分区"""
    logging.info(f"开始处理表 {table_name}, 保留 {retention_days} 天数据")
    
    try:
        # 计算截止日期
        cutoff_date = datetime.now() - timedelta(days=retention_days)

        logging.info(f"开始处理表 {table_name}, 保留 {retention_days} 天数据, 将清理 {cutoff_date} 之前分区数据")

        
        # 生成需要检查的历史日期列表(检查1098天的历史分区)
        #check_days = 1098
        partition_dates = generate_partition_dates(cutoff_date, TABLE_PARTITON_CHECK_DAYS)
        
        dropped_count = 0

        for dt in partition_dates:
            try:
                # 构建删除单个分区的SQL
                # TODO: 非 pt 分区单独处理
                drop_sql = f"""
                ALTER TABLE {table_name} DROP IF EXISTS PARTITION (pt='{dt}')
                """
                # 执行SQL并获取结果
                logging.info(f"准备删除分区SQL: {drop_sql}")
                result = spark.sql(drop_sql)

                if not check_partition_exists(spark, table_name, f"pt='{dt}'"):
                    print(f"分区 pt='{dt}' 删除成功")
                    dropped_count += 1
                    logging.info(f"成功删除分区: {table_name} - pt={dt}")
                else:
                    print(f"分区 pt='{dt}' 删除失败")
                
            except Exception as e:
                logging.error(f"删除分区失败 {table_name} - pt={dt}: {str(e)}")
                continue
        
        logging.info(f"表 {table_name} 处理完成: 删除分区数 {dropped_count}")
        
    except Exception as e:
        logging.error(f"处理表 {table_name} 时发生错误: {str(e)}")

def main():
    logging.info("开始批量清理分区任务")
    
    spark = get_spark_session()
    
    try:
        for table_name, retention_days in TABLES_CONFIG.items():
            #is_external_table(spark, table_name)
            if is_external_table(spark, table_name):
                print(f"表 {table_name} 是外部表")
                logging.error(f"{table_name} 是外部表")
            else:
                print(f"表 {table_name} 不是外部表")
            
            drop_partitions(spark, table_name, retention_days)
    finally:
        spark.stop()
    
    logging.info("批量清理分区任务完成")

if __name__ == "__main__":
    main()

四、注意事项

  • 请根据实际表结构调整 table_namept
  • 删除分区操作不可恢复,建议先在测试环境验证。
  • 可将脚本集成到定时任务(如 Airflow、Oozie)中,实现自动化清理。
  • 脚本缺少外部表删除分区,删除表存储文件操作,如果需要可以自行补充。

五、总结

通过 PySpark 批量清理 Hive 表历史分区,可以有效释放存储空间,提升 Hive 元数据管理效率。该方法简单高效,适用于大多数基于时间分区的 Hive 表维护场景。

相关推荐
End9282 小时前
Hadoop的三大结构及其作用?
大数据·hadoop·分布式
海金沙332 小时前
spark–sql项目实验
spark
chat2tomorrow4 小时前
数据仓库 vs 数据湖:架构、应用场景与技术差异全解析
大数据·数据仓库·低代码·架构·数据湖·sql2api
塔能物联运维4 小时前
双轮驱动能源革命:能源互联网与分布式能源赋能工厂能效跃迁
大数据·运维
-曾牛5 小时前
Git Flow
大数据·git·学习·elasticsearch·个人开发
461K.5 小时前
spark与hadoop的区别
大数据·运维·hadoop·分布式·spark·intellij-idea
Zfox_5 小时前
Git 进阶之路:高效协作之分支管理
大数据·linux·运维·c++·git·elasticsearch
lilye665 小时前
精益数据分析(11/126):辨别虚荣指标,挖掘数据真价值
大数据·人工智能·数据分析
白鲸开源6 小时前
万字长文 | Apache SeaTunnel 分离集群模式部署 K8s 集群实践
大数据