MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
倔强的石头_几秒前
性能飙升!KingbaseES V9R2C13 Windows安装与优化特性深度实测
数据库
梦里不知身是客11几秒前
Doris 中主键模型的读时合并模式
数据库·sql·linq
GanGuaGua7 分钟前
MySQL:复合查询
数据库·mysql·oracle
gugugu.7 分钟前
MySQL事务深度解析:从ACID到MVCC的实现原理
数据库·mysql·oracle
DechinPhy11 分钟前
使用Python免费合并PDF文件
开发语言·数据库·python·mysql·pdf
PNP Robotics19 分钟前
聚焦具身智能,PNP机器人展出力反馈遥操作,VR动作捕捉等方案,获得中国科研贡献奖
大数据·人工智能·python·学习·机器人
木易 士心24 分钟前
数字身份的通行证:深入解析单点登录(SSO)的架构与艺术
java·大数据·架构
2401_8788204727 分钟前
ES知识点二
大数据·elasticsearch·搜索引擎
杨了个杨898233 分钟前
PostgreSQL 完全备份与还原
数据库·postgresql
爱吃KFC的大肥羊34 分钟前
Redis持久化详解(一):RDB快照机制深度解析
数据库·redis·缓存