Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
云和数据.ChenGuang19 小时前
git commit复合指令
大数据·git·elasticsearch
尋有緣20 小时前
力扣614-二级关注者
大数据·数据库·sql·oracle
serve the people20 小时前
Agent 基于大模型接口实现用户意图识别:完整流程与实操
大数据·人工智能·agent
回家路上绕了弯20 小时前
分布式事务SAGA模式详解:长事务与复杂流程的柔性事务方案
分布式·后端
小鹿学程序20 小时前
安装Flume
大数据·flume
中科天工21 小时前
智能工厂的投资回报分析是什么?主要包含哪些关键因素?
大数据·人工智能·智能
Apache Flink21 小时前
Flink + Fluss 实战: Delta Join 原理解析与操作指南
大数据·数据库·flink
互联网江湖21 小时前
蚂蚁阿福引爆AI健康赛道,美年健康锚定AI健康智能体核心生态位
大数据·人工智能
LINGYI00021 小时前
电商代运营是怎么合作的?一般提供服务有哪些?
大数据·全域电商
无代码专家21 小时前
生产ERP解决方案:赋能制造企业精益运营与智能升级
大数据·低代码·制造