Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
谁似人间西林客几秒前
数据驱动制造:工业大数据如何重塑智能决策链?
大数据·制造
真上帝的左手14 分钟前
19. 大数据- BI - AI 应用1-融合场景解析
大数据·人工智能·ai·bi
2603_9547083117 分钟前
微电网协调控制系统柜的应用场景有哪些?
分布式·安全·架构·能源·需求分析
Amy1870211182317 分钟前
微电网+虚拟电厂 是新型电力系统中的“组合拳”
分布式·能源
小王毕业啦1 小时前
2009-2024年 各国清廉指数CPI(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
他们叫我阿冠1 小时前
Kafka的基本了解
分布式·kafka
Amy187021118232 小时前
分布式光伏并网新规落地在即,一套监控系统如何打通“四可”合规与收益优化的双重关卡?
分布式
AIkk862 小时前
班级群学习资料分享指南:工具推荐与实践
大数据·人工智能·html
融智兴科技2 小时前
防伪强度从哪里来?一物一码、动态验证与后台风控
大数据·科技·物联网
超梦dasgg2 小时前
Java 生产环境分布式定时任务全解(实战落地版)
java·开发语言·分布式