Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
N***73857 小时前
ReactGraphQLAPI
大数据·c#·爬山算法
灯下夜无眠11 小时前
conda打包环境上传spark集群
大数据·spark·conda
杂家11 小时前
Hive on Spark && Spark on Hive配置
大数据·数据仓库·hive·hadoop·spark
电商API_1800790524711 小时前
淘宝详情数据 API 返回字段全解析:核心字段说明 + 开发避坑指南
大数据·数据库·性能优化·数据挖掘·数据分析·网络爬虫
2501_9418072611 小时前
可持续发展与绿色科技的未来:从创新到实践
大数据·人工智能·物联网
武子康11 小时前
大数据-162 Apache Kylin 增量 Cube 与 Segment 实战:按天分区增量构建指南
大数据·后端·apache kylin
小王毕业啦11 小时前
1999-2023年 地级市-数字经济综合发展指数
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·实证数据
ANGLAL12 小时前
30.分布式事务:本地事务 + RPC 的“隐形炸弹”
分布式·网络协议·rpc
zl97989913 小时前
RabbitMQ-Hello World
java·分布式·rabbitmq
bigdata-rookie15 小时前
Spark SQL 简介
大数据·sql·spark