Azure Databricks 集群合并小文件与删除过多的历史版本

原因是:databricks 集群的数据底层是HDFS虽然是spark做为引擎读写如果没有及时合并也一样会因为小文件问题造成大量的资源消耗,也就会越来越慢。目前采用的主要方式,定时合并,与版本删除

1、python 脚本如下有用到的同学可以参考下

bash 复制代码
# 合并
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlOptimizeTable = "OPTIMIZE {0}.{1}".format(database_name, table['tableName'])
        try:
            spark.sql(sqlOptimizeTable)
            print("INFO: Optimize table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: Optimize table {0}.{1} failed.".format(database_name, table['tableName']))
bash 复制代码
# 删除多的版本
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlVACUUMTable = "VACUUM {0}.{1} RETAIN 168 HOURS".format(database_name, table['tableName'])
        try:
            spark.sql(sqlVACUUMTable)
            print("INFO: VACUUM table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: VACUUM table {0}.{1} failed.".format(database_name, table['tableName']))

2、在workflows 设置好定时器就行了,

相关推荐
梦幻通灵17 小时前
office2019 如何删除多个授权实现方案
microsoft
天庭鸡腿哥17 小时前
突破SV1P限制,悄咪咪使用!
windows·microsoft·visual studio
行走正道18 小时前
MateChat记忆化引擎设计:长期记忆与用户画像构建方案
microsoft·架构·向量检索·用户画像·matechat
安得权19 小时前
Office365 SSO Azure的配置笔记
笔记·flask·azure
Wpa.wk19 小时前
自动化测试-三种等待的使用方式 (强制等待,显示等待,隐式等待)
microsoft·自动化·设计规范·显示等待·隐式等待·强制等待
Croa-vo20 小时前
Microsoft 2025 VO 面经|最新一轮完整复盘
microsoft
黑客思维者21 小时前
大语言模型如何重塑搜索引擎:从链接罗列到知识服务的革命
microsoft·搜索引擎·语言模型
呲溜滑_1 天前
langchain(node.js) 实际应用订单助手
microsoft·langchain·node.js
遇到困难睡大觉哈哈1 天前
Harmony os 静态卡片(ArkTS + FormLink)详细介绍
前端·microsoft·harmonyos·鸿蒙