MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
m0_734949792 小时前
MySQL如何配置定时清理过期备份文件_find命令与保留周期策略
jvm·数据库·python
m0_514520573 小时前
MySQL索引优化后性能没提升_通过EXPLAIN查看索引命中率
jvm·数据库·python
NaMM CHIN3 小时前
sql实战解析-sum()over(partition by xx order by xx)
数据库·sql
不瘦80斤不改名3 小时前
深入浅出 MySQL(一):一文理清 SQL 核心规范与五大分类
数据库·sql·mysql
woniu_buhui_fei3 小时前
MySQL知识整理二
数据库·mysql
Polar__Star4 小时前
如何在 AWS Lambda 中正确使用临时凭证生成 S3 预签名 URL
jvm·数据库·python
Lucifer三思而后行4 小时前
zCloud 中 Oracle 实例状态未知问题记录
数据库·oracle
island13144 小时前
最详细VMware Workstation 17 上安装 Ubuntu 系统
linux·数据库·ubuntu
小小AK4 小时前
钉钉与金蝶云星空无缝集成方案
大数据·人工智能·钉钉
卢傢蕊4 小时前
MongoDB
数据库·mongodb