大数据 - Hadoop系列《四》- MapReduce(分布式计算引擎)的核心思想

上一篇:

大数据 - Hadoop系列《三》- MapReduce(分布式计算引擎)概述-CSDN博客

目录

[13.1 MapReduce实例进程](#13.1 MapReduce实例进程)

[13.2 阶段组成](#13.2 阶段组成)

[13.4 概述](#13.4 概述)

[13.4.1 🥙Map阶段(映射)](#13.4.1 🥙Map阶段(映射))

[13.4.2 🥙Reduce阶段执行过程](#13.4.2 🥙Reduce阶段执行过程)

[13.4.3 🥙Shuffle机制](#13.4.3 🥙Shuffle机制)


🐶13.1 MapReduce实例进程

一个完整的MapReduce程序在分布式运行时有三类

  • MRAppMaster:负责整个MR程序的过程调度及状态协调

  • MapTask:负责map阶段的整个数据处理流程

  • ReduceTask:负责reduce阶段的整个数据处理流程

🐶13.2 阶段组成

  • 一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段,或者只有Map阶段。

  • 不能有诸如多个Map阶段、多个Reduce阶段的情景出现。

  • 如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序串行运行。

13.3 MapReduce数据类型

注意 :整个MapReduce程序中,数据都是以kv键值对的形式流转的

在实际编程解决各种业务问题中,需要考虑每个阶段的输入输出kv分别是什么

MapReduce内置了很多默认属性,比如排序、分组等,都和数据的k有关,所以说kv的类型数据确定及其重要的。

🐶13.4 概述

一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以。

其中用户负责map、reduce两个阶段的业务问题,hadoop负责底层所有的技术问题;

由于MapReduce计算引擎天生的弊端(慢),当下企业直接使用率以及日薄西山了,所以在企业中工作很少涉及到MapReduce直接编程,但是某些软件的背后还依赖MapReduce引擎。

可以通过官方提供的示例来感受MapReduce及其内部执行流程,因为后续的新的计算引擎比如Spark,当中就有MapReduce深深的影子存在。

MR的核心思想如下图所示:

MapReduce程序的工作分两个阶段进行:

13.4.1 🥙Map阶段(映射)

这个函数单独地应用在每个单元格上的操作就属于映射(Map).

  • 第一阶段 :把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划

默认Split size=Block size(128M),每一个切片由一个MapTask处理。(getsplits)

  • 第二阶段:对切片中的数据按照一定的规则读取解析返回<key,value>对。

默认是按行读取数据,key是每一行的起始位置偏移量,value是本行的文本内容(TextInputFormat)

  • 第三阶段 :调用Mapper类中的map方法处理数据

每读取解析出来的一个<key,value>,调用一次map方法

  • 第四阶段:按照一定规则对Map输出的键值对进行分区partition.默认不分区,因为只有一个reducetask,分区的数量就是reducetask运行的数量。

  • 第五阶段 :Map输出数据写入内存缓冲区,达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort.默认根据key字典序排序。

  • 第六阶段 :对所有溢出文件进行最终的merge合并,成为一个文件。

13.4.2 🥙Reduce阶段执行过程

第一阶段:ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。

第二阶段:把拉取来的数据,全部进行合并merge,即把分散的数据合并成一个大的数据,再会合并的数据排序。

第三阶段:是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入到HDFS文件中。

13.4.3 🥙Shuffle机制

1. 概述

  • Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。

  • 而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则"打乱"成具有一定规则的数据,以便reduce端接收处理。

  • 一般把从Map产生输出到Reduce取得数据作为输入之前的过程称作shuffle

2. Map端 Shuffle

  • Collect阶段:将MapTask的结果收集输出到默认大小为100M的环形缓冲区,保留之前会对key进行分区的计算,默认Hash分区

  • Spill阶段:当内存中的数据量达到一定的阈值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了combiner,还会将相同分区号和key的数据进行排序。

  • Merge阶段:把所有溢出的临时文件进行一次合并操作,以确保一下MapTask最终只产生一个中间数据文件。

3. Reducer端 Shuffle

  • Copy阶段:ReduceTask启动Fetcher线程到已经完成MapTask的节点上复制一份属于自己的数据。

  • Merger阶段:在ReduceTask远程复制数据的同时,会在后台开启两个线程对内存到本地的数据文件进行合并操作。

  • Sort阶段:在对数据进行合并的同时,会进行排序操作,由于MapTask阶段已经对数据进行了局部的排序,ReduceTask只需保证copy的数据的最终整体有效性即可。

4. Shuffle 机制弊端

  • Shuffle是MapReduce程序的核心和精髓,是MapReduce的灵魂所在。

  • Shuffle也是MapReduce被诟病最多的地方所在,MapReduce相比较于Spark、Flink计算引擎慢的原因,跟Shuffle机制有很大的关系。

  • Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复。

相关推荐
不会c+22 分钟前
Elasticsearch入门
大数据·elasticsearch·搜索引擎
数据知道34 分钟前
PostgreSQL 实战:一文掌握如何优雅的进行递归查询?
大数据·数据库·postgresql
重生之绝世牛码1 小时前
Linux软件安装 —— ClickHouse单节点安装(rpm安装、tar安装两种安装方式)
大数据·linux·运维·数据库·clickhouse·软件安装·clickhouse单节点
AIFQuant1 小时前
如何通过股票数据 API 计算 RSI、MACD 与移动平均线MA
大数据·后端·python·金融·restful
MasonYyp1 小时前
DSPy优化提示词
大数据·人工智能
happyboy19862111 小时前
2026 大专大数据技术专业零基础能考的证书有哪些?
大数据
大公产经晚间消息1 小时前
天九企服董事长戈峻出席欧洲经贸峰会“大进步日”
大数据·人工智能·物联网
治愈系科普2 小时前
数字化种植牙企业
大数据·人工智能·python
AI数据皮皮侠2 小时前
中国植被生物量分布数据集(2001-2020)
大数据·人工智能·python·深度学习·机器学习
重生之绝世牛码2 小时前
Linux软件安装 —— PostgreSQL集群安装(主从复制集群)
大数据·linux·运维·数据库·postgresql·软件安装·postgresql主从集群