Hadoop---MapReduce(3)

MapTask工作机制

(1)Read阶段 :MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。

(2)Map阶段 :该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。

(3)Collect收集阶段 :在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。

(4)Spill阶段 :即"溢写",当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。

溢写阶段详情:利用快速排序算法

(5)Merge阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。

Reduce-join案例

将左边两个表合并为右边的表

数据清洗(ETL)

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。
原始数据:

清洗后的数据

Hadoop数据压缩


Map端输出压缩

运行后不会产生.bzip

reduce端输出压缩
代码更改

输出结果

相关推荐
喵叔哟20 分钟前
14【.NET10 实战--孢子记账--产品智能化】--智能生成预算
大数据·人工智能·.net
Deepoch44 分钟前
Deepoc VLA开发板:实现采摘机器人动态生物适应与精准作业
大数据·人工智能·机器人·采摘机器人·deepoc
申通之声1 小时前
3年稳定率90%+:申通五星管理经
大数据·人工智能·交通物流
C137的本贾尼1 小时前
幻读与 Next-Key Lock:可重复读隔离级别如何解决幻读
大数据·数据库
郑洁文1 小时前
达州市人口相关数据分析与应用
大数据·数据挖掘·数据分析·毕设·达州市人口
YangYang9YangYan2 小时前
2026文科生报考大数据类专业学习数据分析的可行性分析
大数据·学习·数据分析
知识分享小能手2 小时前
Hadoop学习教程,从入门到精通, 初识Hadoop — 知识点详解(1)
大数据·hadoop·学习
weixin_408318042 小时前
2026年医疗直播行业趋势报告:技术方向、监管变化与市场格局
java·大数据·人工智能
ACP广源盛139246256732 小时前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
2501_933670792 小时前
高中物理成绩优异,适合报考大数据哪个细分专业
大数据