Hadoop3:MapReduce之MapTask的FileInputFormat的切片原理解读(2)

Job那块的断点代码截图省略,直接进入切片逻辑

参考:Hadoop3:MapReduce之MapTask的Job任务提交流程原理解读(1)

4、FileInputFormat切片源码解析

切片入口

获取切片数

获取最大和最小切片数

判断文件是否可以切片,如果文件不支持切片,则整体处理

这里只考虑支持切片的代码逻辑

计算切片大小

根据切片大小配置,及块大小配置,计算出切片大小

此处可以看出,如果块大小配置在切片大小之间的值,则切片大小取块大小。

这里可以看出,切片是对每一个文件单独计算的,不是把所有文件累加到一起的大小进行计算切片数量。

切片的又一个代码限制。
如果,文件大小小于切片大小的1.1倍,则不增加切片。

生成临时切片文件

创建配置信息文件到临时文件夹中

总结

FileInputFormat类的继承关系

主要关注该类里面的getSplits方法

整体流程梳理

相关推荐
无人赴约的cat10 分钟前
【20250607接单】Spark + Scala + IntelliJ 项目的开发环境配置从零教学
大数据·spark·scala
£菜鸟也有梦1 小时前
Flume进阶之路:从基础到高阶的飞跃
大数据·hive·hadoop·flume
lcw_lance2 小时前
智慧园区综合运营管理平台(SmartPark)和安全EHS平台的分工与协作
大数据·人工智能
阿里云大数据AI技术4 小时前
从MaxCompute到Milvus:通过DataWorks进行数据同步,实现海量数据高效相似性检索
大数据·数据库·数据分析
嫄码4 小时前
kafka快速入门与知识汇总
java·大数据·分布式·中间件·kafka·linq
白鲸开源5 小时前
如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析
大数据
深兰科技5 小时前
南昌市新建区委书记陈奕蒙会见深兰科技集团董事长陈海波一行
大数据·人工智能·ai应用·深兰科技·陈奕蒙
Detachym5 小时前
CentOS7下的大数据NoSQL数据库HBase集群部署
大数据·nosql·hbase
zh_199955 小时前
Spark 之 入门讲解详细版(1)
大数据·spark·mapreduce·数据库架构·etl·涛思数据·odps
G皮T6 小时前
【Elasticsearch】映射:详解 _source & store 字段
大数据·elasticsearch·搜索引擎·映射·store·mappings·_source