MR-图解

1、不是所有的MR都适合combine

1.1、map端统计出了不同班级的每个学生的年龄

如:(class1, 14)表示class1班的一个学生的年龄是14岁。

第一个map任务:

java 复制代码
class1 14
class1 15
class1 16
class2 10

第二个map任务:

java 复制代码
class1 16
class2 10
class2 11

平均年龄:

java 复制代码
class1: ((14+15+16)+16)/4 = 61/4 = 15.25
class2: (10+10+11)/3 = 10.333
1.2、若强制使用combine的话。

第一个map任务:

java 复制代码
class1 14
class1 15
class1 16
class2 10
==>平均值:
class1: (14+15+16)/3 = 15
class2: 10/1 = 10

第二个map任务:

java 复制代码
class1 16
class2 10
class2 11
==>平均值:
class1: 16/1 = 16
class2: (10+11)/2  =10.5

平均年龄:

java 复制代码
==>汇总求平均值:
class1: (15+16)/2  =15.5
class2: (10+10.5) = 10.25

比对结果:

java 复制代码
class1: 15.25不等于15.5
class2: 10.333不等于10.25
1.3、结论:并非所有MR都适合combine操作

2、reduce端merge 排序 分组

第一个map输出

复制代码
(hadoop,1)
(hadoop,1)
(hive,1)

第二个map输出

复制代码
(hadoop,1)
(hive,1)

第三个map输出

复制代码
(hadoop,1)
(hive,1)
(hive,1)
-->merge
复制代码
(hadoop,1)
(hadoop,1)
(hive,1)
(hadoop,1)
(hive,1)
(hadoop,1)
(hive,1)
(hive,1)
-->排序
复制代码
(hadoop,1)
(hadoop,1)
(hadoop,1)
(hadoop,1)

(hive,1)
(hive,1)
(hive,1)
(hive,1)
-->分组
复制代码
一组
(hadoop,1)
(hadoop,1)
(hadoop,1)
(hadoop,1)
二组
(hive,1)
(hive,1)
(hive,1)
(hive,1)
-->每组调用一次reduce方法
复制代码
(hadoop,1)
(hadoop,1)  -> hadoop, Iterable(1,1,1,1) -> reduce(hadoop, Iterable(1,1,1,1), context){...}
(hadoop,1)
(hadoop,1)

⭐️3、wordcount+combine过程

⭐️4、wordcount shuffle

5、grouping

6、自定义OutputFormat

相关推荐
码字的字节4 小时前
深入解析YARN中的FairScheduler与CapacityScheduler:资源分配策略的核心区别
hadoop·capacity·fairscheduler
Johny_Zhao4 小时前
Centos8搭建hadoop高可用集群
linux·hadoop·python·网络安全·信息安全·云计算·shell·yum源·系统运维·itsm
码字的字节1 天前
深入解析Hadoop高频面试题:HDFS读/写流程的RPC调用链
hadoop·hdfs·rpc
白日与明月1 天前
Hive-vscode-snippets
hive·hadoop·vscode
Sirius Wu1 天前
Hive的窗口函数
数据仓库·hive·hadoop
码字的字节1 天前
深入解析HBase如何保证强一致性:WAL日志与MVCC机制
hadoop·hbase·wal·mvcc
zhixingheyi_tian1 天前
Hadoop 之 Yarn
大数据·hadoop·分布式
码字的字节1 天前
深入解析Hadoop MapReduce中Reduce阶段排序的必要性
大数据·hadoop·mapreduce·reduce
Sirius Wu2 天前
一文说清楚Hive
数据仓库·hive·hadoop·后端
码字的字节2 天前
Hadoop磁盘I/O瓶颈的监控与优化:从iostat指标到JBOD vs RAID的深度解析
大数据·hadoop·分布式·raid·iostat·磁盘i/o·jbod