Spark产生小文件的原因及解决方案

一、小文件的定义

Hadoop集群中的文件都是以块(Block)的形式存储在分布式文件系统(HDFS)中的,而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB,其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时,若一个文件的大小显著小于128MB,我们就称之为小文件。

二、小文件产生过多的原因

  1. **写操作不当:**如果在写数据时,设置的分区策略不当,或者没有指定合适的压缩策略,则可能产生大量小文件。
  2. **数据倾斜:**如果spark任务处理的数据,某一个分区的数据量远远大于其他分区时,可能会导致该分区产生大量小文件。
  3. 其他待验证原因。

三、小文件过多的影响

  1. **对NameNode产生压力:**HDFS中的每个文件都需要在NameNode里维护一份元数据信息(文件目录、大小等信息),大量小文件则会占用过多的NameNode内存,影响集群稳定性。
  2. **增加文件读取时间:**如果某个表在HDFS中存放有大量的小文件,在访问该表获取数据时,需要先从NameNode获取元数据信息,再从DataNode读取对应数据,大量的小文件会导致频繁访问,影响读写效率。
  3. **容易导致task数量过多,且影响计算性能:**spark计算时,每个小文件通常被视为一个单独的分区,而spark会为每个分区启动一个或多个task来进行计算,大量小文件会导致启动过多的task,有可能导致内存超出报错(Total size of serialized results of * tasks is bigger than spark.driver.maxResultSize);其次,每个task的启动和销毁也会消耗时间,影响效率。

四、小文件合并方案

  • distribute by rand()

distribute by可以确保相同键值的数据分配到相同的分区中,减少数据的移动,提高聚合、连接、排序等操作的效率。

sql 复制代码
--默认N = 1
insert overwrite table table_target 
select * from table_source distribute by rand();

--更精准的做法,N为正整数,由:文件大小(MB)/128(MB) 得出
insert overwrite table table_target 
select * from table_source distribute by ceil(rand() * N);
  • repartition

repartition只是coalesce接口中shuffle为true的简易实现,对数据进行重新分区,由于开启了shuffle,所以既可以扩大分区数,也可以缩小分区数,缺点是会有磁盘操作,性能差些

sql 复制代码
--N为重新分区的个数,正整数,由:文件大小(MB)/128(MB) 得出
insert overwrite table table_target 
select /*+ repartition(N) */ * from table_source;
  • 开发额外的小文件压缩程序,用于日常的小文件压缩
相关推荐
明达技术18 分钟前
物联优化汽车齿轮锻造
分布式·物联网
Dreams°1231 小时前
大数据 ETL + Flume 数据清洗 — 详细教程及实例(附常见问题及解决方案)
大数据·单元测试·可用性测试
sf_www2 小时前
Flink on YARN是如何确定TaskManager个数的
大数据·flink
武子康3 小时前
大数据-213 数据挖掘 机器学习理论 - KMeans Python 实现 距离计算函数 质心函数 聚类函数
大数据·人工智能·python·机器学习·数据挖掘·scikit-learn·kmeans
武子康3 小时前
大数据-214 数据挖掘 机器学习理论 - KMeans Python 实现 算法验证 sklearn n_clusters labels
大数据·人工智能·python·深度学习·算法·机器学习·数据挖掘
龙哥·三年风水3 小时前
群控系统服务端开发模式-应用开发-前端框架
分布式·vue·群控系统
Aloudata4 小时前
NoETL自动化指标平台为数据分析提质增效,驱动业务决策
大数据·数据分析·指标平台·指标体系
2401_883041088 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交8 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Json_1817901448011 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json