MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
weixin_499771556 分钟前
Python上下文管理器(with语句)的原理与实践
jvm·数据库·python
weixin_452159558 分钟前
高级爬虫技巧:处理JavaScript渲染(Selenium)
jvm·数据库·python
策知道10 分钟前
依托政府工作报告准备省考【经验贴】
大数据·数据库·人工智能·搜索引擎·政务
Z...........17 分钟前
MYSQL进阶查询
数据库·mysql
Henry-SAP22 分钟前
SAP(ERP) 组织结构业务视角解析
大数据·人工智能·sap·erp·sap pp
Tansmjs1 小时前
使用Python自动收发邮件
jvm·数据库·python
m0_561359671 小时前
用Python监控系统日志并发送警报
jvm·数据库·python
Dxy12393102161 小时前
MySQL INSERT ... ON DUPLICATE KEY UPDATE 与非主键唯一字段
数据库·mysql
zhousenshan2 小时前
springboot事务管理几种方式
数据库
TracyCoder1232 小时前
ElasticSearch内存管理与操作系统(一):内存分配底层原理
大数据·elasticsearch·搜索引擎