MapReduce 分布式计算模型

需求:单词计数

"Hello World Hello Hadoop Hello MapReduce"

实现:

map阶段:拆分成单词,执行map函数输出键值对<word, 1>

<Hello, 1>

<World, 1>

<Hello, 1>

<Hadoop, 1>

<Hello, 1>

<MapReduce, 1>

shuffle阶段:按键合并值

"Hello": [1, 1, 1]

"World": [1]

"Hadoop": [1]

"MapReduce": [1]

reduce阶段:执行reduce函数,按键聚合值

<Hello, 3>

<World, 1>

<Hadoop, 1>

<MapReduce, 1>

思想

分而治之:大拆小,并行处理

移动计算而非数据

相关推荐
大数据CLUB20 小时前
基于mapreduce的资金流入流出任务计算
大数据·hadoop·mapreduce
涤生大数据7 天前
从MR迁移到Spark3:数据倾斜与膨胀问题的实战优化
数据库·数据仓库·spark·mapreduce·大数据开发·数据倾斜·spark3
大数据CLUB9 天前
基于hive和mapreduce的地铁数据分析及可视化_hive作为数据库
大数据·hive·hadoop·分布式·数据分析·mapreduce
大数据CLUB10 天前
基于hive和mapreduce的地铁数据分析及可视化
大数据·hive·hadoop·分布式·数据分析·mapreduce
EmmaXLZHONG10 天前
HDFS和MapReduce——Hadoop的两大核心技
hadoop·hdfs·mapreduce
励志成为糕手1 个月前
Hadoop进程:深入理解分布式计算引擎的核心机制
大数据·hadoop·分布式·mapreduce·yarn
小白不想白a1 个月前
【Hadoop】YARN、离线计算框架MapReduce、Hive
大数据·hive·hadoop·mapreduce·yarn
励志成为糕手2 个月前
大数据MapReduce架构:分布式计算的经典范式
大数据·hadoop·mapreduce·分布式计算·批处理
喂完待续2 个月前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce
程序员小羊!2 个月前
Hadoop MapReduce 3.3.4 讲解~
大数据·hadoop·mapreduce