Azure Databricks 集群合并小文件与删除过多的历史版本

原因是:databricks 集群的数据底层是HDFS虽然是spark做为引擎读写如果没有及时合并也一样会因为小文件问题造成大量的资源消耗,也就会越来越慢。目前采用的主要方式,定时合并,与版本删除

1、python 脚本如下有用到的同学可以参考下

bash 复制代码
# 合并
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlOptimizeTable = "OPTIMIZE {0}.{1}".format(database_name, table['tableName'])
        try:
            spark.sql(sqlOptimizeTable)
            print("INFO: Optimize table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: Optimize table {0}.{1} failed.".format(database_name, table['tableName']))
bash 复制代码
# 删除多的版本
for database_name in database_list:
    sqlQueryShowTables = "SHOW TABLES FROM {0}".format(database_name)
    tablesDF = spark.sql(sqlQueryShowTables).collect()

    for table in tablesDF:
        sqlVACUUMTable = "VACUUM {0}.{1} RETAIN 168 HOURS".format(database_name, table['tableName'])
        try:
            spark.sql(sqlVACUUMTable)
            print("INFO: VACUUM table {0}.{1} completed.".format(database_name, table['tableName']))
        except Exception as e:
            print("ERROR: VACUUM table {0}.{1} failed.".format(database_name, table['tableName']))

2、在workflows 设置好定时器就行了,

相关推荐
数据法师18 小时前
微软官方外挂 PowerToys 深度解析:从架构设计到0.99新特性,重构你的Windows生产力
windows·microsoft·重构
xiaoxiang960918 小时前
AI时代的技术趋势:为什么软件正在回归CLI?
人工智能·microsoft
无敌糖果20 小时前
Azure OpenAI配置Codex对接模型apikey
openai·azure·codex
搬砖的梦先生20 小时前
Codex Prompt 中“目标 + 约束”写法详解与操作指南
人工智能·microsoft·prompt
至善迎风21 小时前
Windows 10/11 如何退出微软账户并改用本地账户登录(含找不到选项的解决方法)
windows·microsoft
像风一样自由20202 天前
Dify 工作流实战:用 Workflow 编排一个可控的 AI 自动化处理流程
人工智能·microsoft
happyprince2 天前
01-Hugging Face Transformers 核心基础设施深度分析
microsoft
Arman_2 天前
Rust 客户端安全上传下载微软 Azure Blob:rusty-cat SAS 预签名实战
安全·microsoft·rust·azure·断点续传
Arman_2 天前
Rust 接入微软 Azure Blob 文件上传下载:rusty-cat 直连模式实战
microsoft·rust·azure·断点续传
江晓曼*凡云基地3 天前
Hermes Agent 多Agent模式:并行拆解复杂任务的实战指南
javascript·windows·microsoft