Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
onebound_noah3 分钟前
1688商品获取全解析:API与爬虫双轨实战指南
大数据·数据库·爬虫
凌风工具箱18 分钟前
告别流量焦虑|凌风工具箱一键开启流量加速,适配 TEMU/Shein/TK 全平台
大数据·人工智能
langzaibeijing18 分钟前
性价比高的AI应用厂家
大数据·人工智能·python
andafaAPS19 分钟前
安达发|粮食加工行业APS自动排程:开启智造升级的奇幻之旅
大数据·人工智能·安达发aps·车间排产软件·aps自动排程·计划排产软件
AI周红伟20 分钟前
DeepSeek V4模型本地部署指南:从环境配置到生产级优化
大数据·人工智能·搜索引擎·copilot·openclaw
2601_9577875823 分钟前
星链引擎矩阵系统:内容资产全生命周期管理与智能标签体系技术实践
大数据·人工智能·矩阵·内容资产管理
无忧智库39 分钟前
大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案(159页PPT)
大数据·人工智能
蓝眸少年CY1 小时前
Spark - Code 核心教程
大数据·分布式·spark
敖正炀1 小时前
CAP 定理、BASE 理论与一致性模型深度
分布式
逸Y 仙X2 小时前
文章二十九:ElasticSearch分桶聚合
android·大数据·elasticsearch·搜索引擎·全文检索