大数据005-hadoop003-了解MR及Java的简单实现

上班学习，下班摸鱼2024-04-29 8:39

了解MapReduce

MapReduce过程分为两个阶段：map阶段、reduce阶段。每个阶段搜键-值对作为输入和输出。

要执行一个MR任务，需要完成map、reduce函数的代码开发。

Hellow World

【Hadoop权威指南】中的以分析气象数据为例，找到每年的最高气温。

数据样例如下：

map阶段

map函数只是一个数据准备阶段。

在本例中，它的功能只需要取出年份、气温两个属性即可。

map函数的输出应该长这样：

reduce阶段

reduce函数收到的输入数据不是map函数的直接结果，中间经过MR框架的处理（基于键对键-值进行排序和分组处理），看到输入如下：

键是年份，值是该年的所有气温值。

reduce函数，需要对map函数的输出结果（MR框架处理后）进行处理。

在本例中，它的功能是找到每年的最高气温。

Java实现MapReduce函数

使用java实现上述例子的map、reduce方法

Map方法

实现Mapper（org.apache.hadoop.mapreduce.Mapper），重写map方法，定义输入、输出类型
将每行文本截取，取出年份、气温属性
a. 主要是理解它的操作步骤，不用纠结中间的判断细节
将结果写入到输出中，使用context.write

Reduce函数

继承Reduce（org.apache.hadoop.mapreduce.Reducer）函数，定义输入、输出类型
取出当前集合中的最大值，Math.max
将结果写入到输出中，使用context.write

调用自定义的MapReduce函数，运行MR任务

将代码打包成jar文件
FileInputFormat的addInputPath为原始数据的输入路径
FileInputFormat的setOutputPath为结果数据的输出路径
setMapperClass、setReducerClass为指定要用的map类和reduce类
setOutputKeyClass、setOutputValueClass为reduce函数的输出类型

运行测试

执行后查看输出目录：

上一篇：新媒体运营-----短视频运营-----PR视频剪辑----视频调色

下一篇：Spring Boot框架强大的事件驱动模型(ApplicationEvent)

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 06国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？092026 年 AI 大模型 & AI 编程工具实战全总结 10微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新