【Python机器学习】MapReduce(分布式计算的框架)

MapReduce的优缺点:

优点:可在短时间内完成大量工作;

缺点:算法必须经过重写,需要对系统工程有一定的理解;

适用数据类型:数值型和标称型数据。

MapReduce是一个软件框架,可以将单个计算作业分配给多台计算机执行。它假定这些作业在单机上需要很长的运行时间,因此使用多台机器缩短运行时间。常见的例子是日常统计数字的汇总,该任务单机上执行时间将超过一天。

MapReduce的名字是由函数式编程中常用的map和reduce两个单词组成的。

MapReduce在大量节点组成的集群上运行,它的工作流程是:单个作业被分成很多小份,输入数据也被切片分发到各个节点,各个节点只在本地数据上做运算,对应的运算代码称为mapper,这个过程被称为map阶段,每个mapper的输出通过某种方式组合(一般还会做排序)。排序后的结果再被分成小份分发给各个节点进行下一步处理工作。第二步的处理阶段被称为reduce阶段,对应的运行代码被称为reducer。reducer的输出就是程序的最终执行结果。

MapReduce的优势在于它使得程序以并行的方式执行。如果集群由10个节点组成,而原先的作业需要10个小时来完成,那么应用MapReduce该作业只需要一个多小时就可以得到同样的结果。

举例:入给出过去100年某国每个城市每天的正确气温数据,我们想知道近100年该国最高气温。这里的数据格式为<city><date><temp>。为了统计该时段内的最高温度,可以先将这些数据根据节点数分成很多份,每个节点各自寻找本机数据集上的最高温度,这样每个mapper将产生一个温度,形如<"max"><temp>,也就是所有的mapper都会产生相同的key:"max"字符串。最后一需要一个reducer来比较所有mapper的输出,就能得到全局的最高温度值。

不同类型的作业可能需要不同数目的reducer。比如上面的例子,虽然这次使用的数据集相同,但不同的事这要找出每年的最高温度。这样的话,mapper应该先找到每年的最大温度并输出,所以中间数据的格式将形如<year><temp>。此外,还需要保证所有同一年的数据传递给同一个reducer,这由map和reduce阶段中间的sort阶段来完成。该例子中也给出了MapReduce中值得注意的一点,即数据会以key/value对的形式传递。这里,年代(year)是key,温度(temp)是value。因此sort阶段将按照年代把数据分类,之后合并,最终每个reducer就会收到相同的key值。

从上面的例子可以看出,reducer的数量并不是固定的,此外,在MapReduce的框架中还有其他一些灵活的配置选项。MapReduce的整个编配工作由主节点控制。这些主节点控制整个MapReduce作业编配,包括每份数据存放的节点位置,以及map、sort和reduce等阶段的时序控制等。此外,主节点还要包括容错机制。一般的,每份mapper的输入数据会同时分发到多个节点形成多份副本,用于事务的失效处理。一个MapReduce集群的示意图如下:

上图中每台机器都有两个处理器,可以同时处理两个map或者reduce任务。如果机器0在map阶段宕机,主节点将会发现这一点。主节点在发现该问题之后,会将机器0移出集群,并在剩余的节点上继续执行作业。子啊一些MapReduce的实现中,在多个机器上都保存有数据的多个备份,例如在机器0上存放的输入数据可能还存放在机器1上,以防机器0出现问题。同时,每个节点都必须与主节点通信,表明自己工作正常。如果某节点失效或工作异常,主节点将重启该节点或者将该节点移出可用机器池。

总结部分:

1、主节点控制MapReduce的作业流程;

2、MapReduce的作业可以分为map任务和reduce任务;

3、map任务之间不做数据交流,reduce任务也一样

4、在map和reduce阶段中间,有一个sort或combine阶段;

5、数据被重复存放在不同的机器上,以防某个机器失效

6、mapper和reducer传输的数据形式为key/value对。

相关推荐
cdut_suye8 分钟前
Linux工具使用指南:从apt管理、gcc编译到makefile构建与gdb调试
java·linux·运维·服务器·c++·人工智能·python
南城花随雪。15 分钟前
单片机:实现FFT快速傅里叶变换算法(附带源码)
单片机·嵌入式硬件·算法
dundunmm31 分钟前
机器学习之scikit-learn(简称 sklearn)
python·算法·机器学习·scikit-learn·sklearn·分类算法
古希腊掌管学习的神31 分钟前
[机器学习]sklearn入门指南(1)
人工智能·python·算法·机器学习·sklearn
波音彬要多做32 分钟前
41 stack类与queue类
开发语言·数据结构·c++·学习·算法
Swift社区40 分钟前
Excel 列名称转换问题 Swift 解答
开发语言·excel·swift
一道微光44 分钟前
Mac的M2芯片运行lightgbm报错,其他python包可用,x86_x64架构运行
开发语言·python·macos
矛取矛求1 小时前
QT的前景与互联网岗位发展
开发语言·qt
Leventure_轩先生1 小时前
[WASAPI]从Qt MultipleMedia来看WASAPI
开发语言·qt
向宇it1 小时前
【从零开始入门unity游戏开发之——unity篇01】unity6基础入门开篇——游戏引擎是什么、主流的游戏引擎、为什么选择Unity
开发语言·unity·c#·游戏引擎