Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
2501_901147835 分钟前
DDP(分布式训练)核心知识点学习笔记
笔记·分布式·学习·面试
systeminof5 分钟前
折叠屏竞争进入新阶段:三星新品对标苹果Fold战略
大数据
阿杰学AI14 分钟前
AI核心知识109—大语言模型之 Industry Agent Operations Specialist(简洁且通俗易懂版)
大数据·人工智能·ai·语言模型·agent·智能体·行业智能体运营师
only-qi15 分钟前
分布式 ID 生成方案总结
分布式
志栋智能1 小时前
智能巡检自动化解决方案:从“人海战术”到“AI智巡”的效能革命
大数据·运维·人工智能·网络安全·云原生·自动化
志栋智能1 小时前
AI驱动的带内自动化巡检:编织IT生态的“智慧神经网络”
大数据·运维·网络·人工智能·神经网络·自动化
能源系统预测和优化研究1 小时前
【原创改进代码】考虑电动汽车移动储能特性的多区域电网功率波动平抑优化调控
大数据·算法·能源
加速财经1 小时前
WEEX BUILDERS阿姆斯特丹站落幕:真实市场环境下的AI 量化实践探索
大数据·人工智能
一苓二肆2 小时前
Git 常用指令总结(工程实战版)
大数据·git·elasticsearch
1688red2 小时前
利用Logstash将MySQL/MairaDB 数据导入或同步到 Elasticsearch
大数据·elasticsearch·搜索引擎