MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
丸卜2 小时前
Hadoop复习(九)
大数据·hadoop·分布式
IT成长日记2 小时前
Elasticsearch集群最大分片数设置详解:从问题到解决方案
大数据·elasticsearch·最大分片数·shards
HUTAC2 小时前
MapReduce(期末速成版)
大数据·mapreduce
heart000_13 小时前
MySQL事务与锁机制详解:确保数据一致性的关键【MySQL系列】
数据库·mysql
一眼青苔3 小时前
MySQL 如何判断某个表中是否存在某个字段
数据库·mysql
西柚小萌新3 小时前
【大模型:知识图谱】--3.py2neo连接图数据库neo4j
数据库·知识图谱·neo4j
wangfenglei1234563 小时前
mybatis打印完整的SQL,p6spy
数据库·sql·mybatis
__风__3 小时前
PostgreSQL ERROR: out of shared memory处理
数据库·postgresql
占星安啦4 小时前
一个html实现数据库自定义查询
java·前端·javascript·数据库·动态查询
天空之城夢主4 小时前
MySQL 全量、增量备份与恢复
数据库·mysql·oracle