Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
东方巴黎~Sunsiny13 小时前
实战:RocketMQ 幂等 + Redis 分布式锁 + 异常重试 保姆级教程
redis·分布式·rocketmq
Herlie13 小时前
2026新品上新季:3款AI电商套图生成工具实测
大数据·人工智能
珠海西格电力13 小时前
西格电力零碳园区管理系统的技术架构是怎样的?
大数据·运维·人工智能·物联网·架构·能源
数幄科技13 小时前
电力装备制造业智能化转型】【数据基础设施篇】【5】数据采集 ETL 的可靠性设计
大数据·人工智能·算法·数据治理·数幄科技
海伯森技术13 小时前
海伯森3D线光谱共焦精密测量技术及产业化应用
大数据·人工智能·3d
打码人的日常分享13 小时前
信息化数据安全管理制度办法(Word)
大数据·运维·网络·云计算·制造
大大大大晴天️13 小时前
Hudi文件布局:COW与MOR表案例解析
大数据·hudi
库拉大叔14 小时前
大模型AI横评实测:GPT-4与Claude 3.5三大维度对比,落地选型怎么选?
大数据·人工智能
ModelHub XC信创模盒14 小时前
压力之下,重构赛道:从中美AI博弈到信创生态的深层跃迁
大数据·人工智能·重构·开源·信创·范式
keruilai076914 小时前
工业降温从细微之处优化升级 小小改动大幅提升舒适体验
大数据