Hadoop权威指南-读书笔记-02-关于MapReduce

Hadoop权威指南-读书笔记

记录一下读这本书的时候觉得有意思或者重要的点~

还是老样子~挑重点记录哈😁有兴趣的小伙伴可以去看看原著😊

第二章关于MapReduce

MapReduce是一种可用于数据处理的编程模型。

MapReduce程序本质上是并行运行的，因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。

MapReduce的优势在于处理大规模数据集。

Tips：第二章序言里比较重要的点都在上面啦~🤣

2.1 使用Hadoop来分析气象数据集

气象数据集这一小节举了挖掘气象数据的例子，博主把这个例子的核心摘录了出来。

为了充分利用Hadoop提供的并行处理优势，我们需要将查询表示成MapReduce作业。完成某种本地端的小规模测试之后，就可以把作业部署到在集群上运行。

map和reduce

MapReduce任务过程分为两个处理阶段:map阶段和reduce阶段。

每阶段都以键值对作为输入和输出，其类型由程序员来选择。程序员还需要写两个函数:map函数和reduce 函数。

map阶段的输入是NCDC原始数据。我们选择文本格式作为输入格式，将数据集的每一行作为文本输入。

键是某一行起始位置相对于文件起始位置的偏移量，不过我们不需要这个信息，所以将其忽略。

我们的map函数很简单。由于我们只对年份和气温属性感兴趣，所以只需要取出这两个字段数据。

在本例中，map函数只是一个数据准备阶段，通过这种方式来准备数据，使reduce函数能够继续对它进行处理:即找出每年的最高气温。

map函数还是一个比较适合去除已损记录的地方:此处，我们筛掉缺失的、可疑的或错误的气温数据。

map函数的功能仅限于提取年份和气温信息(以粗体显示)，并将它们作为输出(气温值已用整数表示):

map函数的输出经由MapReduce框架处理后，最后发送到reduce函数。

这个处理过程基于键来对键-值对进行排序和分组。因此，在这一示例中，reduce函数看到的是如下输入:

下面是这个例子所体现出的比较重要的MR处理的流程图：

2.2 Java MapReduce

Java实现MR程序需要三样东西：一个map函数、一个reduce函数和一些用来运行作业的代码。

map函数由Mapper类来表示，后者声明了一个抽象的map()方法。

这个Mapper类是一个泛型类型，它有四个形参类型，分别指定map数的输入键、输入值、输出键和输出值的类型。
就现在这个例子来说，输入键是一个长整数偏移量，输入值是一行文本，输出键是年份，输出值是气温(整数)。
Hadoop本身提供了一套可优化网络序列化传输的基本类型，而不直接使用Java内嵌的类型。

Tips：我的这篇文章讲了为啥不用Java内嵌的序列化---Hadoop序列化详解

这些类型都在 org.apache.hadoop.io包中。这里使用 LongWritable 类型(相当于Java的Long类型)、Text类型(相当于Java中的String 类型)和IntWritable类型(相当于Java的Integer类型)。
map()方法的输入是一个键和一个值。我们首先将包含有一行输入的Text值转换成Java的String类型，之后用substring()方法提取我们感兴趣的列。

map()方法还提供Context实例用于输出内容的写入。在这种情况下，我们将年份数据按Text对象进行读/写(因为我们把年份当作键)，将气温值封装在Intwritable 类型中。
只有气温数据不缺并且所对应质量代码显示为正确的气温读数时，这些数据才会被写入输出记录中。

同样，reduce函数也有四个形式参数类型用于指定输入和输出类型。
reduce函数的输入类型必须匹配map 函数的输出类型:即Text类型和Intwritable 类型。
在这种情况下，reduce函数的输出类型也必须是Text和IntWritable类型，分别输出年份及其最高气温。

这个最高气温是通过循环比较每个气温与当前所知最高气温所得到的。

第三部分代码负责运行MR作业。

Job对象指定作业执行规范。
我们可以用它来控制整个作业的运行。

我们在Hadoop 集群上运行这个作业时，要把代码打包成一个JAR文件(Hadoop 在集群上发布这个文件)。

不必明确指定JAR文件的名称，在Job对象的setJarByClass()方法中传递一个类即可，Hadoop利用这个类来查找包含它的JAR文件，进而找到相关的· JAR 文件。

构造 Job对象之后，需要指定输入和输出数据的路径。
调用FileInputFormat类的静态方法 addInputPath()来定义输入数据的路径，这个路径可以是单个的文件、一个目录(此时，将目录下所有文件当作输入)或符合特定文件模式的一系列文件。
由函数名可知，可以多次调用 addInputPath()来实现多路径的输入。

调用 File0utputFormat 类中的静态方法 setOutputPath()来指定输出路径(只能有一个输出路径)。
这个方法指定的是reduce函数输出文件的写入目录。
在运行作业前该目录是不应该存在的，否则Hadoop会报错并拒绝运行作业。这种预防措施的目的是防止数据丢失(长时间运行的作业如果结果被意外覆盖，肯定是非常恼人的)。

接着，通过 setMapperClass()和setReducerclass()方法指定要用的 map 类型和reduce 类型。
setOutputKeyClass()和setOutputValueClass()方法控制reduce 函数的输出类型，并且必须和Reduce类产生的相匹配。

map数的输出类型默认情况下和reduce 函数是相同的，因此如果mapper产生出和reducer相同的类型时(如同本例所示)，不需要单独设置。
但是，如果不同，则必须通过setMap0utputKeyClass()和setMapOutputValueClass()方法来设置 map 函数的输出类型。

waitForCompletion()方法提交作业并等待执行完成。该方法唯一的参数是一个标识，指示是否已生成详细输出。

当标识为true(成功)时，作业会把其进度信息写到控制台。
waitForcompletion()方法返回一个布尔值，表示执行的成(true)败(false)，这个布尔值被转换成程序的退出代码0或者1。

运行测试

写好MapReduce作业之后，通常要拿一个小型数据集进行测试以排除代码问题。

5个map输入记录产生5个map输出记录(由于mapper为每个合法的输入记录产生一个输出记录)，随后，分为两组的5个reduce输入记录(一组对应一个唯一的键)产生两个reduce 输出记录。
输出数据写人output目录，其中每个reducer都有一个输出文件。
我们例子中的作业只有一个 reducer，所以只能找到一个名为part-r-00000的文件:

2.3 横向扩展

MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。
Hadoop将作业分成若干个任务(task)来执行，其中包括两类任务:map任务和reduce任务。
这些任务运行在集群的节点上，并通过YARN进行调度。
如果一个任务失败，它将在另一个不同的节点上自动重新调度运行。

❤❤❤❤❤ 分片重点：

Hadoop将 MapReduce 的输入数据划分成等长的小数据块，称为输入分片(input split)或简称"分片"。

Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map 函数从而处理分片中的每条记录。
拥有许多分片，意味着处理每个分片所需要的时间少于处理整个输入数据所花的时间。
因此，如果我们并行处理每个分片，且每个分片数据比较小，那么整个处理过程将获得更好的负载平衡，因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定的比例。即使使用相同的机器，失败的进程或其他并发运行的作业能够实现满意的负载平衡，并且随着分片被切分得更细，负载平衡的质量会更高。
另一方面，如果分片切分得太小，那么管理分片的总时间和构建map任务的总时间将决定作业的整个执行时间。
对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是128MB，不过可以针对集群调整这个默认值(对所有新建的文件)，或在每个文件创建时指定。

❤❤❤❤❤ 数据本地化重点：

Hadoop在存储有输入数据(HDFS中的数据)的节点上运行map任务，可以获得最佳性能，因为它无需使用宝贵的集群带宽资源。这就是所谓的"数据本地化优化"(data locality optimization)。

但是，有时对于一个 map 任务的输入分片来说存储该分片的HDFS数据块复本的所有节点可能正在运行其他map任务，此时作业调度需要从某一数据块所在的机架中的一个节点上寻找一个空闲的 map 槽(slot)来运行该map任务分片。

仅仅在非常偶然的情况下(该情况基本上不会发生)，会使用其他机架中的节点运行该map任务，这将导致机架与机架之间的网络传输。图2-2显示了这三种可能性。

现在我们应该清楚为什么最佳分片的大小应该与块大小相同:因为它是确保可以存储在单个节点上的最大输入块的大小。
如果分片跨越两个数据块，那么对于任何一个HDFS节点，基本上都不可能同时存储这两个数据块，因此分片中的部分数据需要通过网络传输到map任务运行的节点。与使用本地数据运行整个map任务相比，这种方法显然效率更低。