Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
尘世壹俗人14 小时前
分离Hadoop客户端单独使用
大数据·hadoop·分布式
厨 神14 小时前
11月10日ES本机
大数据·elasticsearch·搜索引擎
微盛企微增长小知识14 小时前
企业微信AI怎么用?从智能表格落地看如何提升运营效率
大数据·人工智能·企业微信
私域实战笔记14 小时前
如何选择企业微信SCRM?2025年3个选型参考维度
大数据·人工智能·企业微信·scrm·企业微信scrm
yzp-15 小时前
Zookeeper 笔记
java·分布式·zookeeper
大G的笔记本15 小时前
常见且高频的 ZooKeeper 面试题
分布式·zookeeper·云原生
ZKNOW甄知科技15 小时前
重构企业运维智慧:低代码 ITSM 知识管理平台的创新与实践
大数据·运维·人工智能·程序人生·低代码·重构·it
AllData公司负责人16 小时前
云原生数据平台(cloudeon)--核心服务组件扩展
大数据·云原生·架构·开源
wddblog17 小时前
分布式环境下的一致性与幂等性
分布式
武子康17 小时前
大数据-153 Apache Druid 实时接入 Kafka:从摄取到查询的完整实战
大数据·后端·nosql