MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
不剪发的Tony老师几秒前
Hue:一个大数据查询工具
大数据
靠近彗星3 分钟前
如何检查 HBase Master 是否已完成初始化?| 详细排查指南
大数据·数据库·分布式·hbase
郑梓妍12 分钟前
ubuntu改用户权限
服务器·网络·数据库
w236173460121 分钟前
存储型XSS漏洞解析
数据库·oracle·xss·存储型xss
墨染丶eye1 小时前
数据仓库项目启动与管理
大数据·数据仓库·spark
SelectDB1 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·aigc
用户6279947182621 小时前
GBase 8a南大通用数据库节点替换
数据库
Мартин.1 小时前
[CISSP] [5] 保护资产安全
数据库·安全·oracle
熠速1 小时前
ITTIA DB Platform——实时嵌入式数据管理软件产品家族
数据库·嵌入式实时数据库
遇到困难睡大觉哈哈2 小时前
Git推送错误解决方案:`rejected -> master (fetch first)`
大数据·git·elasticsearch