Spark streaming写入delta数据湖问题

问题1 一个batch运行时间过长

检查发现问题出现在merge写文件时间过长,一个batch本来应该是控制在1min。但项目上线到生产环境,检查spark streaming的job,发现数据在merge写入到数据湖时,往往超过1小时。继续排查,发现是一张表往往出现几百个小文件,影响数据写性能,故每天进行小文件合并操作。

  • . 优化小文件问题:

    sql 复制代码
    optimize delta.`dbfs:/your_mount_path/` 
  • 增加分区:

    python 复制代码
    df = spark.read.format('delta').load("abfs:/your_history_path")
    df = df.withColumn('CDC_DATE', df['cdc_timestamp'].cast('date'))
    df.write.partitionBy('CDC_DATE').mode('overwrite').option('overwriteSchema', 'true').format('delta').save("abfs:/your_partitioin_path")
相关推荐
badhope15 小时前
10个GitHub高星开源项目推荐
大数据·人工智能·深度学习·数据挖掘·github
Leo.yuan15 小时前
什么是主数据管理?主数据管理怎么做?
大数据·数据库
北京软秦科技有限公司15 小时前
AI报告文档审核重构制药行业质量监管体系:IACheck驱动智慧管控与合规能力全面升级
大数据·人工智能·重构
geneculture15 小时前
智能系统研究:面向通用智能的元架构
大数据·人工智能·架构·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
电商API&Tina15 小时前
主流跨境平台多站点 API 接入流程:淘宝天猫京东API接口
java·大数据·网络·数据库·人工智能·sql·json
Alter123015 小时前
重仓中国供应链的“新拼姆”,想要做线上版的Costco?
大数据·人工智能
终端行者15 小时前
Elasticsearch介绍集群迁移 Es集群如何迁移
大数据·elasticsearch·搜索引擎
ZKNOW甄知科技15 小时前
展会回顾 | 甄知科技携燕千云·智能服务流平台亮相武汉
大数据·运维·人工智能·科技·安全·低代码·信息可视化
尽兴-15 小时前
ElasticSearch 聚合操作详解(含实战示例 + 精度优化 + 性能调优)
大数据·elasticsearch·搜索引擎·桶聚合·指标聚合·管道聚合
迈巴赫车主15 小时前
大数据:Hadoop(MapReduce)
大数据·hadoop·mapreduce