Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
jikemaoshiyanshi5 小时前
B2B企业GEO服务商哪家好?深度解析径硕科技(JINGdigital)及其JINGEO产品为何是首选
大数据·运维·人工智能·科技
Elastic 中国社区官方博客6 小时前
使用 Jina-VLM 小型多语言视觉语言模型来和图片对话
大数据·人工智能·elasticsearch·语言模型·自然语言处理·jina
IvanCodes6 小时前
Zookeeper & Hbase安装教程
大数据·zookeeper·hbase
志栋智能6 小时前
超自动化巡检:实现运维“事前预防”的关键拼图
大数据·运维·网络·人工智能·机器学习·自动化
仗剑_走天涯6 小时前
hadoop reduce阶段 对象重用问题
大数据·hadoop·分布式
拾光向日葵6 小时前
2026考研:南京林业大学接受理学调剂的专业有哪些
大数据·人工智能·物联网
XM_jhxx6 小时前
从“自动化”到“自主化”:工业AI正在改变什么?
大数据·人工智能
电磁脑机6 小时前
无总线场同步:意识本质、AGI困境与脑机革命的核心理论重构
分布式·神经网络·架构·信号处理·agi
半桶水专家7 小时前
kafka数据删除策略详解
分布式·kafka
一个有温度的技术博主7 小时前
Lua语法进阶:函数封装与条件控制的艺术
redis·分布式·缓存·lua