大数据005-hadoop003-了解MR及Java的简单实现

了解MapReduce

MapReduce过程分为两个阶段:map阶段、reduce阶段。每个阶段搜键-值对作为输入和输出。

要执行一个MR任务,需要完成map、reduce函数的代码开发。


Hellow World

【Hadoop权威指南】中的以分析气象数据为例,找到每年的最高气温。

数据样例如下:

map阶段

map函数只是一个数据准备阶段。

在本例中,它的功能只需要取出年份、气温两个属性即可。

map函数的输出应该长这样:

reduce阶段

reduce函数收到的输入数据不是map函数的直接结果,中间经过MR框架的处理(基于键对键-值进行排序和分组处理),看到输入如下:

键是年份,值是该年的所有气温值。

reduce函数,需要对map函数的输出结果(MR框架处理后)进行处理。

在本例中,它的功能是找到每年的最高气温。


Java实现MapReduce函数

使用java实现上述例子的map、reduce方法

Map方法

  1. 实现Mapper(org.apache.hadoop.mapreduce.Mapper),重写map方法,定义输入、输出类型
  2. 将每行文本截取,取出年份、气温属性
    a. 主要是理解它的操作步骤,不用纠结中间的判断细节
  3. 将结果写入到输出中,使用context.write

Reduce函数

  1. 继承Reduce(org.apache.hadoop.mapreduce.Reducer)函数,定义输入、输出类型
  2. 取出当前集合中的最大值,Math.max
  3. 将结果写入到输出中,使用context.write

调用自定义的MapReduce函数,运行MR任务

  1. 将代码打包成jar文件
  2. FileInputFormat的addInputPath为原始数据的输入路径
  3. FileInputFormat的setOutputPath为结果数据的输出路径
  4. setMapperClass、setReducerClass为指定要用的map类和reduce类
  5. setOutputKeyClass、setOutputValueClass为reduce函数的输出类型

运行测试

执行后查看输出目录:

相关推荐
Coder个人博客7 小时前
Linux6.19-ARM64 mm mmu子模块深入分析
大数据·linux·车载系统·系统架构·系统安全·鸿蒙系统
财经三剑客11 小时前
AI元年,春节出行安全有了更好的答案
大数据·人工智能·安全
岁岁种桃花儿12 小时前
Flink CDC从入门到上天系列第一篇:Flink CDC简易应用
大数据·架构·flink
TOPGUS12 小时前
谷歌SEO第三季度点击率趋势:榜首统治力的衰退与流量的去中心化趋势
大数据·人工智能·搜索引擎·去中心化·区块链·seo·数字营销
2501_9336707913 小时前
2026 高职大数据与会计专业零基础能考的证书有哪些?
大数据
ClouderaHadoop13 小时前
CDH集群机房搬迁方案
大数据·hadoop·cloudera·cdh
TTBIGDATA13 小时前
【Atlas】Ambari 中 开启 Kerberos + Ranger 后 Atlas Hook 无权限访问 Kafka Topic:ATLAS_HOOK
大数据·kafka·ambari·linq·ranger·knox·bigtop
程序员清洒13 小时前
CANN模型部署:从云端到端侧的全场景推理优化实战
大数据·人工智能
lili-felicity14 小时前
CANN多设备协同推理:从单机到集群的扩展之道
大数据·人工智能
pearbing15 小时前
天猫UV量提高实用指南:找准方向,稳步突破流量瓶颈
大数据·uv·天猫uv量提高·天猫uv量·uv量提高·天猫提高uv量