Hadoop---MapReduce(3)

MapTask工作机制

(1)Read阶段 :MapTask通过InputFormat获得的RecordReader,从输入InputSplit中解析出一个个key/value。

(2)Map阶段 :该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value。

(3)Collect收集阶段 :在用户编写map()函数中,当数据处理完成后,一般会调用OutputCollector.collect()输出结果。在该函数内部,它会将生成的key/value分区(调用Partitioner),并写入一个环形内存缓冲区中。

(4)Spill阶段 :即"溢写",当环形缓冲区满后,MapReduce会将数据写到本地磁盘上,生成一个临时文件。需要注意的是,将数据写入本地磁盘之前,先要对数据进行一次本地排序,并在必要时对数据进行合并、压缩等操作。

溢写阶段详情:利用快速排序算法

(5)Merge阶段:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件。

Reduce-join案例

将左边两个表合并为右边的表

数据清洗(ETL)

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。
原始数据:

清洗后的数据

Hadoop数据压缩


Map端输出压缩

运行后不会产生.bzip

reduce端输出压缩
代码更改

输出结果

相关推荐
刘一说19 分钟前
时空大数据与AI融合:重塑物理世界的智能中枢
大数据·人工智能·gis
GIS数据转换器1 小时前
综合安防数智管理平台
大数据·网络·人工智能·安全·无人机
数数科技的数据干货1 小时前
游戏流失分析:一套经实战检验的「流程化操作指南」
大数据·运维·人工智能·游戏
派可数据BI可视化3 小时前
你知道 BI 是什么吗?关于 BI 系统的概述
大数据·信息可视化·数据分析
天远云服3 小时前
前端全栈必读:Node.js如何高效接入天远个人风险报告API
大数据·api
天远API3 小时前
拒绝黑产与老赖:Java后端如何接入天远个人风险报告API(COMBTY11)
大数据·api
代码方舟3 小时前
360度风险扫描:天远个人风险报告API接口集成与核心字段深度解析
大数据·api
C7211BA3 小时前
亚信科技数智本体平台(AISWare Ontology Platform)
大数据·人工智能·科技
T06205143 小时前
【实证分析】人工智能技术应用如何影响企业创新数据(2007-2024年)
大数据·人工智能
路边草随风3 小时前
python操作cosn使用
大数据·python