大数据学习(34)-mapreduce详解

viperrrrrrrrrr72025-01-16 14:30

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门

💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

mapreduce本身工作原理相对于spark来说简单很多，计算过程大概包括map阶段和reduce阶段。

一、任务启动阶段

Client用户端发起请求 ：
- MapReduce作业的启动由Client端（即用户或应用程序）发起。Client端会提交作业请求，包括作业的配置信息、输入数据的位置等。
资源申请与分配 ：
- YarnRunner接受Client端的请求，并向ResourceManager申请所需的资源。
- ResourceManager检索当前集群的资源情况，为作业分配资源路径，并通知YarnRunner。
作业分片与MRAppMaster启动 ：
- YarnRunner根据输入数据的大小和集群的配置，对输入数据进行分片（split），每个分片将作为一个Map任务的输入。
- YarnRunner申请启动MRAppMaster，该组件负责监控和管理整个作业的执行过程。
MapTask启动 ：
- ResourceManager根据分片和作业信息，选择数据所在的节点启动MapTask。MapTask在数据所在的节点上运行，以减少数据传输的开销。

二、Map阶段

数据读取与处理 ：
- 每个MapTask读取自己节点上的分片数据，并进行处理。处理过程包括数据的split、map函数的执行、数据的分区等。
- 在map函数中，输入数据被转换为键值对（key-value pair）的形式，并经过自定义的map逻辑处理，输出新的键值对。
数据写入环形缓冲区 ：
- MapTask的输出结果首先写入一个内存环形缓冲区。当缓冲区中的数据量达到一定的阈值时（如80%），会触发一个溢写（spill）操作，将数据写入磁盘。
数据排序与合并 ：
- 在溢写过程中，MapReduce框架会对数据进行排序和合并操作。排序是基于key进行的，以确保相同key的数据能够聚集在一起。
- 合并操作是将多个溢写文件合并为一个有序的文件，以减少后续处理的数据量。

三、Shuffle阶段

数据分发 ：
- Shuffle阶段负责将MapTask的输出结果分发到相应的ReduceTask。分发过程是基于key的分区进行的，确保相同key的数据被发送到同一个ReduceTask。
数据排序与归并 ：
- 在ReduceTask端，接收到的数据会进行进一步的排序和归并操作，以确保数据的正确性和有序性。

四、Reduce阶段

ReduceTask启动 ：
- 当MapTask全部完成后，MRAppMaster会申请启动ReduceTask。ReduceTask的数量由作业的配置决定，通常与Reduce的输出结果数量相关。
数据处理与输出 ：
- ReduceTask对接收到的数据进行处理，包括合并相同key的value列表、执行自定义的reduce逻辑等。
- 处理完成后，ReduceTask将结果写入到HDFS或其他存储系统中。

五、任务结束阶段

监控与汇报 ：
- MRAppMaster持续监控每个Reduce节点的执行情况，并在所有任务完成后向上汇报。
资源释放与任务结束 ：
- ResourceManager注销MRAppMaster，并释放其占用的资源。YarnRunner接收任务执行完成的信息，并返回给Client端。Client端接受信息后，表示作业执行完成。

MapReduce的工作流程是一个复杂而有序的过程，涉及多个组件和阶段的协同工作。通过合理的配置和优化，MapReduce可以高效地处理大规模数据，满足各种数据处理和分析的需求。

上一篇：如何从 iPhone 16/15/14 恢复已删除的文件？

下一篇：【Go】：深入解析 Go 1.24：新特性、改进与最佳实践

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06KGG转MP3工具|非KGM文件|解密音频 072025软件测试面试八股文（含答案+文档）08两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）