MapReduce概述

分布式计算框架 - MapReduce

MapReduce是"分散->汇总"模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。

分布式计算概述-什么是分布式计算http://t.csdnimg.cn/ZcUfe

MapReduce提供了2个编程接口:

Map

Reduce

其中 Map功能接口提供了"分散"的功能, 由服务器分布式对数据进行处理

Reduce功能接口提供了"汇总(聚合)"的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

MapReduce执行原理

现在, 我们借助一个案例,简单分析一下,MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假定有4台服务器用以执行MapReduce任务 可以3台服务器执行Map,1台服务器执行Reduce

计算过程如下

相关推荐
梦里不知身是客11几秒前
Spark的容错机制
大数据·分布式·spark
唐僧洗头爱飘柔952730 分钟前
【GORM(3)】Go的跨时代ORM框架!—— 数据库连接、配置参数;本文从0开始教会如何配置GORM的数据库
开发语言·数据库·后端·golang·gorm·orm框架·dsn
谅望者39 分钟前
在 macOS 上使用 Homebrew 安装 MySQL 8.0 完整指南
数据库·sql·mysql
SelectDB1 小时前
从 OpenSearch 到 Apache Doris:领创集团日志系统升级实践,降本 45%
大数据·apache
程序员卷卷狗1 小时前
MySQL 页结构与数据存储原理全解析》
数据库·mysql
hweiyu001 小时前
MySQL 从入门到精通(视频教程)
数据库·mysql
小跌—2 小时前
MySQL:数据库基础
数据库·mysql
点云SLAM2 小时前
方差的迭代计算公式
大数据·深度学习·数据分析·概率论·数学原理·概论率
张小洛2 小时前
Spring JDBC源码解析:模板方法模式的优雅实践
数据库·spring·模板方法模式·spring jdbc
SelectDB2 小时前
货拉拉用户画像基于 Apache Doris 的数据模型设计与实践
数据库·apache