分布式计算框架 - MapReduce
MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。
分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe
MapReduce提供了2个编程接口:
Map
Reduce
其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理
Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计
用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。
MapReduce执行原理
现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。
假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。
假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce
计算过程如下