Hadoop MapReduce

大厂守门员2024-04-04 8:24

MapReduce 分为两个阶段，分为Map 阶段和Reduce 阶段，可以自定义map函数 和reduce函数 ，

map函数 的输入是行在文件的字节偏移量 ，value是文件的一行数据。

reduce函数 的输入是key 和对应key的value组 ，然后reduce函数 可以对这一组数据进行处理

再来看mapreduce是如何实现的，因为可以知道reduce阶段 的value是一组 的，包括mapreduce还发生了文件读取 和写入文件的操作，包括一些序列化

当有一个文件 时，文件在底层操作系统 是很多个数据块，

map 是以数据切片 逻辑进行处理的，所以当读取文件数据 时，会对物理文件 进行逻辑切片 ，然后一个切片 就对应一个MapTask ，尽量保证切片大小等于数据块大小 ，让一个MapTask 直接本地处理 ，加快处理速度

Map 阶段处理逻辑 ，map读入文件的每行数据 ，然后以key-value 的方式处理输出到一个分区 ，输出到哪个分区 取决于默认的还是自定义分区处理 了，默认是根据键的哈希值确定分区。

分区其实是先保存到一个环形缓存区 ，当环形缓存区达到一定阈值 的时候，就会把缓冲区数据落盘 ，落盘前 会对分区内 的数据进行快速排序 ，如果有多个小文件 ，会对多个小文件进行归并排序 ，合成一个大文件，然后分区和reduceTask的数量一样。

reduce 阶段，reduce可会读取所有mapTask 对应分区的所有文件 ，如果有多个文件 ，也会进行归并排序 ，这样就保证了Reduce函数的输入里的value，是一个相同Key的value集合 。然后经过reduceTask函数进行数据处理，最终输出，输出文件数 也跟reduceTask的个数 相关，reduceTask的数目不能大于分区数目