MapReduce完整工作流程

1、mapreduce工作流程(终极版)

  1. 任务提交

  2. 拆-split逻辑切片--任务切分。 FileInputFormat--split切片计算工具 FileSplit--单个计算任务的数据范围。

  3. 获得split信息和个数。

MapTask阶段

  1. 读取split范围内的数据。k(偏移量)-v(行数据)

关键API:TextInputFormat。

  1. 循环调用mapper.map(k,v) 关键代码:

while(xx.next){ mapper.map(k,v); }

  1. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

Partitioner.getPartition(k,v,reduceTask数量)--分区号。

  1. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

MapOutputBuffer--环形缓冲区。

  1. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

① 读取k-v{分区号},对溢写范围内的数据进行排序。

② 存放到本地磁盘文件中,产生分区内的溢写文件。

  1. 溢写完毕后,产生多个溢写文件

① 将多个溢写文件合并成1个有序---归并排序。

② combiner(分区 合并 调用reducer--局部reduce操作)【如果开启】

结果: 每个MapTask执行完毕后本地磁盘,每个分区(目录)内只有一个文件。(Key有序)

ReduceTask阶段

  1. 从各个MapTask节点下载对应分区的结果文件。

MapTask(分区0文件)

MapTask(分区0文件)→ ReduceTask-0

MapTask(分区0文件)

  1. merge操作

① 排序

② 按照key分组

③ 将key相同的多个value--->[v,v,v,v]

  1. 循环调用Reducer.reduce方法处理数据

while(xxx){ reducer.reduce(k,vs); }

  1. reducer.reduce输出key-value,将数据写入HDFS中。

TextOutputForamt 格式化数据的工具类

FileOutputFormat 指定输出HDFS的路径位置。

整个过程简述:

任务提交,根据文件大小切分Split逻辑切片,一个逻辑切分会启动一个Maptesk任务,Maptask会循环读取block块上的数据输出key和value,然后进行分区计算将输出的k、v存入临时缓冲区,缓冲区写满80%后会产生溢写文件(多个),然后将不同分区的多个溢写文件合并为一个溢写文件作为该阶段的输出文件。通过网络传输进入reduceTesk阶段,将不同split逻辑切分中的相同的分区号文件进行合并为一个文件(merge操作),作为reduceeTesk的输入文件,循环调用Reducer.reduce方法执行任务,将数据写入HDFS中。

2、Spill溢写过程详解

发生在MapReduce过程中的排序:

第一次: MapTask阶段环形缓冲区开始spill溢写,缓冲区每次溢写,发生一轮排序。 快排排序

第二次: Maptask多次溢写产生的多个溢写文件(单个文件每部k有序),要做归并排序,maptask每个分区内,只保留1个文件(key有序) 归并排序

第三次: ReduceTask-0 汇总多个MapTask的(对应分区-0)结果文件,归并排序

3、Shuffle过程详解

简言:站在数据的角度来讲,数据从Mapper.map方法离开,一直到数据进入Reducer.reduce方法,中间的过程。

Mapper阶段

  1. 循环调用mapper.map(k,v) 关键代码:

while(xx.next){ mapper.map(k,v); }

  1. mapper.map执行完毕后,输出k-v,调用k-v的分区计算

Partitioner.getPartition(k,v,reduceTask数量)--分区号。

  1. 将输出k-v{分区号},存入临时缓冲区。环形缓冲区。

MapOutputBuffer--环形缓冲区。

  1. 如果缓冲区写满80%(mapper代码执行完毕),触发spill溢写过程。

① 读取k-v{分区号},对溢写范围内的数据进行排序。

② 存放到本地磁盘文件中,产生分区内的溢写文件。

ReduceTask阶段

  1. 从各个MapTask节点下载对应分区的结果文件。

MapTask(分区0文件)

MapTask(分区0文件)→ ReduceTask-0

MapTask(分区0文件)

  1. merge操作

① 排序

② 按照key分组

③ 将key相同的多个value--->[v,v,v,v]

  1. 循环调用Reducer.reduce方法处理数据

while(xxx){ reducer.reduce(k,vs); }

相关推荐
阿里云大数据AI技术31 分钟前
ODPS 十五周年实录 | 为 AI 而生的数据平台
大数据·数据分析·开源
哈哈很哈哈2 小时前
Spark 运行流程核心组件(三)任务执行
大数据·分布式·spark
我星期八休息3 小时前
大模型 + 垂直场景:搜索/推荐/营销/客服领域开发新范式与技术实践
大数据·人工智能·python
最初的↘那颗心4 小时前
Flink Stream API - 源码开发需求描述
java·大数据·hadoop·flink·实时计算
白鲸开源4 小时前
收藏!史上最全 Apache SeaTunnel Source 连接器盘点 (2025版),一篇通晓数据集成生态
大数据·数据库·开源
爱疯生活4 小时前
车e估牵头正式启动乘用车金融价值评估师编制
大数据·人工智能·金融
Lx3525 小时前
MapReduce作业调试技巧:从本地测试到集群运行
大数据·hadoop
计算机程序员小杨5 小时前
计算机专业的你懂的:大数据毕设就选贵州茅台股票分析系统准没错|计算机毕业设计|数据可视化|数据分析
java·大数据
BYSJMG5 小时前
计算机大数据毕业设计推荐:基于Spark的气候疾病传播可视化分析系统【Hadoop、python、spark】
大数据·hadoop·python·信息可视化·spark·django·课程设计
励志成为糕手6 小时前
大数据MapReduce架构:分布式计算的经典范式
大数据·hadoop·mapreduce·分布式计算·批处理