Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
ManageEngineITSM17 小时前
功能越来越强,但 IT 使用体验却越来越差
大数据·excel·资产管理·itsm·工单系统
YA88888888888917 小时前
数字时代B端拓客:号码核验的价值重构与行业突围,氪迹科技法人股东号码筛选系统,阶梯式
大数据·人工智能·重构
wanzehongsheng17 小时前
分布式光伏电站的技术优势与智能运维实践:以WZ HELIO²双轴跟踪系统为例
运维·分布式
爱浦路 IPLOOK17 小时前
分布式UPF架构:让低时延与大带宽不再是难题
分布式·架构
rafael(一只小鱼)17 小时前
如何解决报错wmic不是内部或外部命令--kafka场景下
windows·分布式·kafka
昨夜见军贴061617 小时前
AI审核重构行业底层能力:IACheck如何打造人机协同的智能审核“双引擎”体系
大数据
大大大大晴天️17 小时前
Flink-Hudi技术实践:Upsert场景开发实践
大数据·flink·hudi
传感器与混合集成电路17 小时前
长效监测体系的构建:工艺、装备与数据能力
分布式
人工智能培训17 小时前
样本效率与安全探索的矛盾解析及平衡路径
大数据·人工智能·深度学习·算法·机器学习·知识图谱·故障诊断
第二只羽毛18 小时前
C++ 高并发内存池4
java·大数据·linux·c++·算法