Hadoop3教程（七）：MapReduce概述

文章目录

[（68） MR的概述&优缺点](#（68） MR的概述&优缺点)
（69）MR的核心思想
- MapReduce进程
（70）官方WC源码&序列化类型
（71）MR的编程规范
- Mapper
- Reducer
- Driver
（72）WordCount案例需求分析
参考文献

（68） MR的概述&优缺点

MapReduce是一个分布式运算程序的编程框架，简单的说，就是一个 分布式计算框架，是Hadoop的核心所在。

MR的核心功能，是将用户编写的业务逻辑代码和自身组件相融合，整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。

优点：

易于编程。用户只关心业务逻辑就可以；
良好的扩展性。可动态增加服务器节点，以解决计算资源不足的问题；
高容错性。如果有一台节点崩溃，不会影响整个集群的计算。其他可用节点会接过崩溃节点的任务，继续计算。
适合海量数据的计算。这里的海量，一般是指TB以上级别的。

缺点：

不擅长实时计算。无法达到mysql这种毫秒级查询，无法快速响应；
不擅长流式计算。指数据一条条过来，实时的流式计算。一般是spark streaming和flink适合做这个。MR的特性决定了其数据源必须是静态的。
不擅长DAG有向无环图 。像是迭代计算，即DAG中，任务一的输出会作为任务二的输入，任务二的输出则会作为任务三的输入，以此类推，是一个链式的结构。MR不擅长处理这种，当然，只是不擅长，不是不支持。相比来讲，spark更适合用来处理这种任务。（因为spark的中间结果是基于内存的，而MR是基于磁盘，重复IO性能太低下）

（69）MR的核心思想

经典案例：统计一段话中每个单词出现的总次数，其中a~p的结果放在一个文件，q~z的结果放在一个文件里。

MR的计算分为两个阶段：Map阶段和Reduce阶段。

接下来我们以经典案例，来讲解MR的主要工作流程，如图：

1） Map阶段，是任务分配阶段，一般是按照块大小，每个MapTask负责处理一块数据。这个块一般是128M。

这个阶段的MapTask并发实例，完全并发运行，互不相干。

在我们刚说的这个案例里，MapTask中都做了些什么呢？

一行一行读数据，进行处理；
按照空格分割行内单词；
把切出来的单词，组成KV键值对（单词，1）
将所有的KV键值对，按照单词首字母，分成两个分区（ap分区和qz分区），导出至磁盘保存。

2） Reduce阶段，就是任务汇总统计阶段。

这一阶段的ReduceTask并发实例也是互不相干，但是它们依赖于Map阶段所有MapTask并发实例的输出。

在这个案例里，因为结果需要有2个文件，所以这里会有2个ReduceTask，一个负责汇总出ap，一个负责汇总出qz，并分别输出至文件。

在一个MR计算过程中，只能包含一个Map阶段和一个Reduce阶段。如果用户的业务逻辑过于复杂，那么可以创建多个MR计算程序，串行计算。这就相当于链式的有向无环图计算了。

一些问题细节：

MapTask内部是如何工作的？
ReduceTask内部是如何工作的？
MapTask内部是如何排序、控制分区的？
MapTask和ReduceTask之间是如何衔接的？

这些问题都将在后面一一解答。

MapReduce进程

一个完整的MR程序在分布式运行的时候，会产生三种类型的进程：

MrAppMaster：是ApplicationMaster的子进程，负责整个Mr程序的过程调度及状态协调；
MapTask：负责Map阶段的数据处理流程；
ReduceTask：负责Reduce阶段的数据处理流程

MapTask和ReduceTask似乎都是yarnchild，这里仅供参考一下。

（70）官方WC源码&序列化类型

WordCount（即WC），这是Hadoop里一个很经典的MR案例，教程后面很多地方在讲解底层原理的时候都会以WC为例做讲解。

官方WordCount的源码在哪儿呢？

大概在Hadoop安装目录的share/hadoop/mapreduce/hadoop-mapreduce-example-xxx.jar，这里面存储了Hadoop的一些代码案例。

jar包反编译工具：jd-gui。

WC的源码里，核心是三个类：

主类，负责调度/驱动
TokenizerMapper类，继承了Mapper
IntSumReducer类，继承了Reducer

分工很明确。

另外，这里简单介绍下hadoop中常用的数据序列化类型，后面讲序列化的时候会用到：

Java类型	Hadoop Writable类型
Boolean	BooleanWritable
Byte	ByteWritable
Int	IntWritable
Float	FloatWritable
Long	LongWritable
Double	DoubleWritable
String	Text
Map	MapWritable
Array	ArrayWritable
Null	NullWritable

（71）MR的编程规范

用户在编写一个完整的MR程序时，需要实现3个部分，即Mapper、Reducer和Driver。

Mapper

Mapper阶段：

用户自定义的Mapper，要继承对应的系统Mapper类；
Mapper的输入数据需要是KV键值对的形式；
Mapper中的业务逻辑，需要写在Mapper类里声明的map()方法里；
Mapper的输出数据，也需要是KV对的形式；
map()方法对每一个KV对，都调用一次；（每个KV都会跑一遍属于自己的map()方法）

Reducer

Reducer阶段：

用户自定义的Reducer，要继承对应的系统Reducer类；
Reducer的输入类型跟Mapper的输出类型是要保持一致的。这个很好理解，串行的毕竟；
Reducer的业务逻辑，需要写在Reducer类里声明的reduce()方法里；
在ReduceTask进程中，reduce()对==每一组相同K==的KV对，都调用一次；（所以这里容易发生数据倾斜）

注意，最后一条，Mapper跟Reducer是不一样的。Reducer是每一组相同K的KV对，进一个reduce()。

这个其实很好理解，Reducer阶段就是做汇总的，它是一个数据量减少的过程，其实就是一个把n条具有相同特征的数据，合并成一条数据的过程。

以WC举例，第一句话里字母a出现了3次，第二句话里字母a出现了4次，即mapper会分别输出两个键值对，即(a,3)和(a,4)，Reducer则会将这两个键值对输入同一个reduce()进行加和，并最终输出(a,7)。

Driver

Driver阶段：

相当于yarn集群的客户端，用于提交整个程序到YARN集群，具体提交的是什么呢？其实是封装了MR程序相关运行参数的一个job对象。所以驱动类里其实就是定义一些运行参数之类的。

（72）WordCount案例需求分析

一个标准的WordCount需求：统计给定的文本文件中，每一个单词出现的次数。

我们需要针对这个需求，编写对应的Mapper、Reducer和Driver。

这里就不展示代码了，只是展示一下各个类的主要功能。

Mapper负责：

将MapTask传过来的文本内容先转换成string；
根据空格将这一行切分成单词；
将切出来的单词，包装成键值对<单词，1>的形式；

Reducer负责：

将相同K的value值加在一起；
输出该K的总次数；

Driver阶段：

获取配置信息，获取job对象实例；
指定本程序的jar包所在的本地路径；
关联Mapper和Reducer业务类；
指定Mapper的输出类型（K和V是什么类型）；
指定最终输出的类型。（整个MR程序结束后的输出，而不是Reducer阶段的输出）
指定job的输入文件的所在目录；
指定job的输出结果的所在目录（输出目录不能提前存在？）；
提交作业；

参考文献

【尚硅谷大数据Hadoop教程，hadoop3.x搭建到集群调优，百万播放】