分布式通用计算——MapReduce(重点在shuffle 阶段)

图片均来源于B站:哈喽鹏程

面向批处理的分布式计算框架------MapReduce

  • [1、Mapreduce 起源](#1、Mapreduce 起源)
  • 2、适用场景
  • [3、MapReduce 词频统计原理](#3、MapReduce 词频统计原理)

1、Mapreduce 起源


2、适用场景

3、MapReduce 词频统计原理

  • map 阶段到reduce阶段,通过hash取模来实现reduce 。比如:有4个reduce块,通过将map<key,value>中的key转换为数值,除以4.取模进行归类。


相关推荐
艾莉丝努力练剑21 分钟前
【优选算法必刷100题】第031~32题(前缀和算法):连续数组、矩阵区域和
大数据·人工智能·线性代数·算法·矩阵·二维前缀和
能鈺CMS29 分钟前
能鈺CMS · 虚拟发货源码
java·大数据·数据库
一起学开源1 小时前
分布式基石:CAP定理与ACID的取舍艺术
分布式·微服务·架构·流程图·软件工程
雁于飞1 小时前
分布式基础
java·spring boot·分布式·spring·wpf·cloud native
非著名架构师2 小时前
极端天气下的供应链韧性:制造企业如何构建气象风险防御体系
大数据·人工智能·算法·制造·疾风气象大模型·风光功率预测
做萤石二次开发的哈哈3 小时前
11月27日直播预告 | 萤石智慧台球厅创新场景化方案分享
大数据·人工智能
Hello.Reader3 小时前
使用 Flink CDC 搭建跨库 Streaming ETLMySQL + Postgres → Elasticsearch 实战
大数据·elasticsearch·flink
用户199701080184 小时前
1688图片搜索API | 上传图片秒找同款 | 相似商品精准推荐
大数据·数据挖掘·图片资源
武子康4 小时前
大数据-164 Apache Kylin Cuboid 剪枝实战:Derived 维度与膨胀率控制
大数据·后端·apache kylin
梦里不知身是客115 小时前
shuffle过程
大数据