【mapreduce】工作原理

直裾2025-04-01 11:16

MapReduce是一种分布式计算模型，最初由Google提出并广泛应用于大数据处理领域。其核心思想是将大规模数据集分成小块，在多台机器上并行处理，并最终汇总结果。以下是MapReduce的工作原理：

工作流程

输入分片

将待处理的大规模数据集按照一定的规则划分为若干个小的数据块（称为"分片"），每个分片可以分配到集群的不同节点。

Map阶段

每个分片会被交给一个Mapper任务进行处理。

Mapper会接收键值对作为输入（通常是文件中的每一行内容），并对每一条记录调用用户自定义的map()函数，生成一系列中间键值对 (key, value)。

Shuffle阶段

中间键值对会被按key排序，并通过哈希分区机制分布到各个Reducer节点。

同一key的所有value都会被发送到同一个Reducer中。

Reduce阶段

Reducer接收到所有属于特定key的value列表后，会对它们应用用户定义的reduce()函数，进一步合并、统计或转换这些值。

最终输出的结果通常保存在一个目标存储系统中。

输出写入

Reduce完成后，结果被写入磁盘或其他持久化存储介质，供后续分析使用。