Hadoop MapReduce 3.3.4 讲解~

✨博客主页: https://blog.csdn.net/m0_63815035?type=blog

💗《博客内容》:.NET、Java.测试开发、Python、Android、Go、Node、Android前端小程序等相关领域知识
📢博客专栏: https://blog.csdn.net/m0_63815035/category_11954877.html
📢欢迎点赞 👍 收藏 ⭐留言 📝
📢本文为学习笔记资料,如有侵权,请联系我删除,疏漏之处还请指正🙉
📢大厦之成,非一木之材也;大海之阔,非一流之归也✨

目录

  • 前言
  • 设计思想
      • [1. MapReduce的基本概念](#1. MapReduce的基本概念)
      • [2. MapReduce的核心组件](#2. MapReduce的核心组件)
      • [3. MapReduce的工作流程](#3. MapReduce的工作流程)
      • [4. MapReduce的数据处理模型](#4. MapReduce的数据处理模型)
      • [5. Shuffle机制详解](#5. Shuffle机制详解)
      • [6. MapReduce的优化策略](#6. MapReduce的优化策略)
      • [7. MapReduce的应用场景](#7. MapReduce的应用场景)
      • [8. MapReduce与YARN的关系](#8. MapReduce与YARN的关系)

前言

Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。它的设计初衷是解决海量数据的存储和计算问题,具有高容错性、高扩展性和低成本等特点。下面详细讲解Hadoop的核心知识点:

设计思想


1. MapReduce的基本概念

  • 定义:一种分布式计算模型,用于处理海量数据的并行计算
  • 核心思想:将复杂的计算任务分解为Map(映射)和Reduce(归约)两个阶段
  • 优势
    • 自动实现并行处理
    • 提供容错机制
    • 处理PB级别的海量数据
    • 适用于各种分布式计算场景

2. MapReduce的核心组件

  • JobTracker:负责整个作业的调度和监控(Hadoop 1.x中,Hadoop 2.x中被YARN的ResourceManager替代)
  • TaskTracker:运行在每个节点上,负责执行具体任务(Hadoop 1.x中,Hadoop 2.x中被YARN的NodeManager替代)
  • Map Task:执行Map阶段的任务
  • Reduce Task:执行Reduce阶段的任务
  • InputSplit:输入数据的逻辑分片,每个分片由一个Map Task处理
  • Combiner:可选的本地Reduce操作,用于减少Map输出的数据量
  • Partitioner:决定Map输出的键值对分配到哪个Reduce Task

3. MapReduce的工作流程

  1. 输入分片(InputSplit)

    • 将输入数据分割成多个InputSplit(通常与HDFS块大小一致)
    • 每个InputSplit由一个Map Task处理
  2. Map阶段

    • 读取InputSplit中的数据,解析成键值对(K1, V1)
    • 对每个键值对执行map函数,生成中间键值对(K2, V2)
    • 示例:计算单词频率时,将("文档1", "hello world")转换为("hello", 1)、("world", 1)
  3. Shuffle阶段(核心)

    • 分区(Partitioning):根据Partitioner将Map输出分到不同的分区
    • 排序(Sorting):对每个分区内的键值对按键排序
    • 合并(Combining):可选操作,对排序后的结果进行本地合并,减少数据传输
    • 归并(Merging):将多个Map Task的输出合并成一个有序的数据集
  4. Reduce阶段

    • 读取Shuffle后的有序数据
    • 对相同键的value集合执行reduce函数,生成最终键值对(K3, V3)
    • 示例:将多个("hello", 1)合并为("hello", 5)
  5. 输出(Output)

    • 将Reduce的输出写入到指定的存储系统(通常是HDFS)

4. MapReduce的数据处理模型

  • 键值对:MapReduce的所有数据处理都基于键值对(Key-Value Pair)

  • 数据类型:所有的Key和Value都必须实现Writable接口,常用类型包括:

    • Text:用于字符串
    • IntWritable:用于整数
    • LongWritable:用于长整数
    • DoubleWritable:用于浮点数
  • 函数定义

    • Map函数:map(K1, V1) → list(K2, V2)
    • Reduce函数:reduce(K2, list(V2)) → list(K3, V3)

5. Shuffle机制详解

Shuffle是MapReduce的核心,连接Map和Reduce阶段,负责数据的传输和处理:

  1. Map端的Shuffle

    • 环形缓冲区:Map输出先写入内存缓冲区(默认100MB)
    • 溢出写(Spill):当缓冲区达到阈值(默认80%),将数据写入磁盘
    • 合并溢出文件:将多个溢出文件合并成一个有序文件
  2. Reduce端的Shuffle

    • 拉取数据(Fetch):Reduce Task从各个Map Task拉取属于自己的分区数据
    • 合并数据(Merge):将拉取的多个数据片段合并成一个大的有序数据集
    • 分组(Grouping):将相同Key的Value合并成一个列表

6. MapReduce的优化策略

  • 数据本地化:尽量将计算任务分配到数据所在的节点,减少网络传输
  • Combiner使用:在Map端进行本地聚合,减少Shuffle阶段的数据量
  • 合理设置Map和Reduce数量:根据数据大小和集群规模调整
  • 压缩:对Map输出和中间数据进行压缩,减少IO操作
  • JVM重用:在TaskTracker上重用JVM,减少启动开销
  • 调整缓冲区大小:根据内存情况调整Map阶段的缓冲区大小

7. MapReduce的应用场景

  • 日志分析:统计访问量、用户行为分析等
  • 数据挖掘:关联规则挖掘、聚类分析等
  • 机器学习:训练大规模数据集的模型
  • 搜索引擎:网页排序、关键词统计等
  • 数据转换:数据格式转换、数据清洗等

8. MapReduce与YARN的关系

在Hadoop 2.x中,MapReduce运行在YARN框架上:

  • ResourceManager负责集群资源管理
  • ApplicationMaster负责MapReduce作业的生命周期管理
  • NodeManager负责单个节点的资源管理和任务执行
  • Container为Map和Reduce任务提供计算资源
csharp 复制代码
今天这篇文章就到这里了,大厦之成,非一木之材也;大海之阔,非一流之归也。感谢大家观看本文
相关推荐
hunteritself2 小时前
阿里千问上线记忆,Manus 1.5 全栈升级,ChatGPT 将推成人模式!| AI Weekly 10.13-10.19
大数据·人工智能·深度学习·机器学习·chatgpt
像是套了虚弱散3 小时前
DevEco Studio与Git完美搭配:鸿蒙开发的版本控制指南
大数据·elasticsearch·搜索引擎
AI企微观察4 小时前
高频低客单价产品怎么做私域?餐饮/生鲜/零售用社群运营提效37%的私域代运营方案
大数据·产品运营·零售
武子康5 小时前
大数据-133 ClickHouse 概念与基础|为什么快?列式 + 向量化 + MergeTree 对比
大数据·后端·nosql
夕小瑶5 小时前
Dexmal 原力灵机开源 Dexbotic:具身智能的“Transformers“库来了
大数据·人工智能
想ai抽5 小时前
Flink的checkpoint interval与mini-batch什么区别?
大数据·flink·batch
字节跳动数据平台5 小时前
火山引擎推出Data Agent评测体系,并发布《2025数据智能体实践指南》
大数据
字节跳动数据平台5 小时前
火山引擎发布新产品用户研究Agent,并推出数据智能体评测体系
大数据
在未来等你5 小时前
Kafka面试精讲 Day 29:版本升级与平滑迁移
大数据·分布式·面试·kafka·消息队列
雾行灯6 小时前
Hive 中的“分布键”之思:从数据组织到查询优化的系统解析
大数据