Hadoop3:MapReduce之MapTask的FileInputFormat的切片原理解读(2)

Job那块的断点代码截图省略,直接进入切片逻辑

参考:Hadoop3:MapReduce之MapTask的Job任务提交流程原理解读(1)

4、FileInputFormat切片源码解析

切片入口

获取切片数

获取最大和最小切片数

判断文件是否可以切片,如果文件不支持切片,则整体处理

这里只考虑支持切片的代码逻辑

计算切片大小

根据切片大小配置,及块大小配置,计算出切片大小

此处可以看出,如果块大小配置在切片大小之间的值,则切片大小取块大小。

这里可以看出,切片是对每一个文件单独计算的,不是把所有文件累加到一起的大小进行计算切片数量。

切片的又一个代码限制。
如果,文件大小小于切片大小的1.1倍,则不增加切片。

生成临时切片文件

创建配置信息文件到临时文件夹中

总结

FileInputFormat类的继承关系

主要关注该类里面的getSplits方法

整体流程梳理

相关推荐
清辞85319 分钟前
Coze从入门到实战---第一、二章
大数据·人工智能·学习·语言模型
TomatoStudy42 分钟前
IT职业教育AI落地与实训体系建设复盘——以职坐标模式为例
大数据·人工智能
Java 码思客1 小时前
【ElasticSearch从入门到架构师】第1章:ElasticSearch 核心认知与行业定位
大数据·elasticsearch·搜索引擎
cui17875682 小时前
物业费收缴困局的破题之路:2026年社区商业逻辑的底层重构
大数据·数据库·人工智能
2501_933670792 小时前
大数据在校实训项目一般做什么类型内容
大数据
monsion2 小时前
Loop Engineering:你不再 prompt agent,而是设计 prompt agent 的系统
大数据·人工智能·prompt
保卫大狮兄3 小时前
什么是WBS项目管理?WBS有哪些核心功能?
大数据·人工智能
标书畅畅行3 小时前
钛投标:全流程企业级AI标书解决方案,重构投标数字化生产力
大数据·人工智能
2601_954971133 小时前
2026年大数据专业证书报考指南
大数据
JZC_xiaozhong3 小时前
赛狐ERP订单如何自动同步到金蝶云星空?从发货到应收单生成,全程实时
大数据·数据挖掘·数据分析·数据集成与应用集成·赛狐erp集成·金蝶系统集成·系统应用对接