【Hadoop|MapReduce篇】MapReduce概述

1. MapReduce定义

MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。

MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

2. MapReduce优缺点

2.1 优点

  • MapReduce易于编程

它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的机器上运行,也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。

  • 良好扩展性

可以动态增加服务器,解决计算资源不够的问题。

  • 高容错性

任何一台机器挂掉,可以将任务转移到其他节点。

  • 适合海量数据计算

几千台服务器共同计算。

2.2 缺点

  • 不擅长实时计算。
  • 不擅长流式计算。
  • 不擅长DAG有向无环图计算。

3. MapReduce核心编程思想

4. MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程。

  • MrAppMaster:负责整个程序的过程调度及状态协调。
  • MapTask:负责Map阶段的整个数据处理流程。
  • ReduceTask:负责Reduce阶段的整个数据处理流程。

4.1 Mapper阶段

  • 用户自定义的Mapper要继承自己的父类。
  • Mapper的输入数据是KV对的形式(KV的类型可以自定义)
  • Mapper中的业务逻辑写在map()方法中。
  • Mapper的输出数据是KV对的形式(KV的类型可自定义)
  • map()方法(MapTask进程)对每一个<K,V>调用一次。

Mapper阶段的输入数据是<偏移量,String的序列类型>

输出数据是<String的序列类型,Int的序列类型>

4.2 Reducer阶段

  • 用户自定义的Reducer要继承自己的父类。
  • Reducer的输入数据类型对应Mapper的输出数据类型,也是KV。
  • Reducer的业务逻辑写在reduce方法中
  • ReduceTask进程对每一组相同的<KV>组调用一次reduce方法。

Reducer阶段的输入数据是<String的序列类型,集合类型>

输出数据是<String的序列类型,Int的序列类型>

4.3 Driver阶段

相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象。

  • 获取配置信息,获取job对象实例。
  • 指定本程序的jar包所在的本地路径。
  • 关联Mapper/Reducer业务类。
  • 指定Mapper输出的ky类型。
  • 指定最终输出的数据的kv类型。
  • 指定job的输入原始文件所在的目录。
  • 指定job的输出结果所在的目录。
  • 提交作业。
相关推荐
老蒋新思维43 分钟前
创客匠人峰会新视角:AI 时代知识变现的 “组织化转型”—— 从个人 IP 到 “AI+IP” 组织的增长革命
大数据·人工智能·网络协议·tcp/ip·创始人ip·创客匠人·知识变现
TMO Group 探谋网络科技1 小时前
AI Agent工作原理:如何连接数据、决策与行动,助力企业数字化转型?
大数据·人工智能·ai
Chasing Aurora2 小时前
Git 工程指引(命令+问题)
大数据·git·elasticsearch·团队开发·互联网大厂
TG:@yunlaoda360 云老大3 小时前
阿里云国际站代理商RPA跨境服务的适用场景有哪些?
大数据·阿里云·rpa
微盛企微增长小知识3 小时前
2025企业微信服务商测评:头部服务商微盛AI·企微管家技术实力与落地效果解析
大数据·人工智能·企业微信
TMO Group 探谋网络科技3 小时前
AI电商的应用:Magento 使用 Adobe 生成式 AI改造7大业务场景
大数据·人工智能·adobe·ai
UI设计兰亭妙微3 小时前
理性数据,温柔体验:北京兰亭妙微解码 Hydra Corps. 企业管理界面的 “松弛感设计”
大数据·人工智能·用户体验设计
慎独4133 小时前
家家有:从单向支出到价值循环,绿色积分如何 重构商业逻辑?
大数据·人工智能
梦里不知身是客113 小时前
flink使用 DefaultResourceCalculator(默认资源计算器) 策略
大数据·flink
五度易链-区域产业数字化管理平台4 小时前
十五五规划明确数智方向数字经济将迎新变化,五度易链大数据、AI技术如何从单点应用走向全域赋能
大数据·人工智能