MapReduce完整工作流程

1、mapreduce工作流程(终极版)

  1. 任务提交

  2. 拆-split逻辑切片--任务切分。 FileInputFormat--split切片计算工具 FileSplit--单个计算任务的数据范围。

  3. 获得split信息和个数。

MapTask阶段

  1. 读取split范围内的数据。k(偏移量)-v(行数据)

关键API:TextInputFormat。

  1. 循环调用mapper.map(k,v) 关键代码:

while(xx.next){ mapper.map(k,v); }

  1. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

Partitioner.getPartition(k,v,reduceTask数量)--分区号。

  1. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

MapOutputBuffer--环形缓冲区。

  1. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

① 读取k-v{分区号},对溢写范围内的数据进行排序。

② 存放到本地磁盘文件中,产生分区内的溢写文件。

  1. 溢写完毕后,产生多个溢写文件

① 将多个溢写文件合并成1个有序---归并排序。

② combiner(分区 合并 调用reducer--局部reduce操作)【如果开启】

结果: 每个MapTask执行完毕后本地磁盘,每个分区(目录)内只有一个文件。(Key有序)

ReduceTask阶段

  1. 从各个MapTask节点下载对应分区的结果文件。

MapTask(分区0文件)

MapTask(分区0文件)→ ReduceTask-0

MapTask(分区0文件)

  1. merge操作

① 排序

② 按照key分组

③ 将key相同的多个value--->[v,v,v,v]

  1. 循环调用Reducer.reduce方法处理数据

while(xxx){ reducer.reduce(k,vs); }

  1. reducer.reduce输出key-value,将数据写入HDFS中。

TextOutputForamt 格式化数据的工具类

FileOutputFormat 指定输出HDFS的路径位置。

整个过程简述:

任务提交,根据文件大小切分Split逻辑切片,一个逻辑切分会启动一个Maptesk任务,Maptask会循环读取block块上的数据输出key和value,然后进行分区计算将输出的k、v存入临时缓冲区,缓冲区写满80%后会产生溢写文件(多个),然后将不同分区的多个溢写文件合并为一个溢写文件作为该阶段的输出文件。通过网络传输进入reduceTesk阶段,将不同split逻辑切分中的相同的分区号文件进行合并为一个文件(merge操作),作为reduceeTesk的输入文件,循环调用Reducer.reduce方法执行任务,将数据写入HDFS中。

2、Spill溢写过程详解

发生在MapReduce过程中的排序:

第一次: MapTask阶段环形缓冲区开始spill溢写,缓冲区每次溢写,发生一轮排序。 快排排序

第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序) 归并排序

第三次: ReduceTask-0 汇总多个MapTask的(对应分区-0)结果文件,归并排序

3、Shuffle过程详解

简言:站在数据的角度来讲,数据从Mapper.map方法离开,一直到数据进入Reducer.reduce方法,中间的过程。

Mapper阶段

  1. 循环调用mapper.map(k,v) 关键代码:

while(xx.next){ mapper.map(k,v); }

  1. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

Partitioner.getPartition(k,v,reduceTask数量)--分区号。

  1. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

MapOutputBuffer--环形缓冲区。

  1. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

① 读取k-v{分区号},对溢写范围内的数据进行排序。

② 存放到本地磁盘文件中,产生分区内的溢写文件。

ReduceTask阶段

  1. 从各个MapTask节点下载对应分区的结果文件。

MapTask(分区0文件)

MapTask(分区0文件)→ ReduceTask-0

MapTask(分区0文件)

  1. merge操作

① 排序

② 按照key分组

③ 将key相同的多个value--->[v,v,v,v]

  1. 循环调用Reducer.reduce方法处理数据

while(xxx){ reducer.reduce(k,vs); }

相关推荐
杭州龙立智能科技13 小时前
专业的厂内运输车智能化厂家
大数据·人工智能·python
securitypaper13 小时前
2026年最新发布的 安全生产 行业标准 列表 下载
大数据·安全
Light6013 小时前
从“报告”到“能力”——构建智能化、可审计的数据治理闭环——领码 SPARK 数据质量平台白皮书
大数据·分布式·spark
TDengine (老段)13 小时前
嘉环科技携手 TDengine,助力某水务公司构建一体化融合平台
大数据·数据库·科技·物联网·时序数据库·tdengine·涛思数据
程序猿阿伟13 小时前
《Python生态事件溯源与CQRS轻量化落地指南》
大数据·python·微服务
dajun18112345613 小时前
跨部门工作流泳道图在线绘制工具 PC
大数据·数据库·人工智能·信息可视化·架构·流程图
HZZD_HZZD13 小时前
喜讯|合众致达成功中标G312线傅家窑至苦水公路机电工程FKJD-2标水电表项目
大数据·数据库·人工智能
paixingbang13 小时前
GEO优化服务商领域崛起三强 自主技术驱动AI搜索与位置智能升级
大数据·人工智能
lagrahhn14 小时前
scoop的使用
大数据·python·搜索引擎
AI数据皮皮侠14 小时前
全球首个30米分辨率湿地数据集(2000—2022)
大数据·人工智能