【Hadoop】- MapReduce概述[5]

目录

前言

[一、分布式计算框架 - MapReduce](#一、分布式计算框架 - MapReduce)

二、MapReduce执行原理


前言

MapReduce是一种分布式计算框架,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。

在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并行处理。每个节点执行"map"函数,将输入数据转换为一组键值对。这些键值对将进行洗牌和排序,并将生成的中间数据发送到"reduce"函数。

"reduce"函数将中间数据进行处理,将其合并为最终结果或输出。它根据所需的计算或分析对数据进行聚合和分析。

MapReduce提供了容错机制,系统可以通过将工作负载重新分配到其他节点来自动处理单个节点的失败。它还提供了可扩展性,可以通过添加更多的节点来处理更大的数据集或增加的处理需求。

MapReduce广泛用于大数据处理应用,例如分布式网络索引、日志分析和数据挖掘。它对其他数据处理系统的发展产生了影响,如Apache Hadoop。

一、分布式计算框架 - MapReduce

MapReduce是"分散"->"汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。MapRduce提供了2个编程接口:

  • Map
  • Reduce

其中

  • Map功能接口提供了"分散"的功能,有服务器分布式对数据进行处理
  • Reduce功能接口提供了"汇总"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

二、MapReduce执行原理

现在,我们借助一个案例,简单分析MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。并且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假设有4台服务器用以执行MapReduce任务,可以3台服务器执行Map,1台服务器执行Reduce

总结

1、什么是MapReduce

  • MapReduce是Hadoop中的分布式计算组件
  • MapReduce可以以分散->汇总模式执行分布式计算任务

2、MapReduce的主要编程接口

  • map接口,主要提供"分散"功能,有服务器分布式处理数据
  • reduce接口,主要提供"汇总"功能,进行数据汇总统计得到结果
  • MapReduce可供Java、Python等语言开发计算程序
相关推荐
得物技术3 天前
从埋点需求到规则资产:Hermes Agent 重构得物数仓工作流
大数据·llm·ai编程
久美子3 天前
AI驱动数仓建设的Harness工程实践——本体建模、知识分层与上下文工程
大数据
大树884 天前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1234 天前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能4 天前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
王小王-1234 天前
基于 Hive 的网易云音乐数据分析及可视化系统
hive·hadoop·数据分析·音乐数据分析·网易云音乐分析·hive音乐分析·hadoop网易云
ApacheSeaTunnel4 天前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574094 天前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室4 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民4 天前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag