MapReduce复习

一、MapReduce概述

1.定义

是分布式运算框架

MapReduce:用户处理业务相关代码+自身的默认代码

2.优势劣势

优点:

1).易于编程。用户只关心业务逻辑,实现框架的接口。

2).良好的扩展性。可以动态增加服务器,解决计算资源不够的问题。

3).高容错性:任何一台挂掉,可以将任务转移到其它节点。

4).适合海量数据计算(TB/PB)几千台服务器共同计算。

劣势:

1).不擅长实时计算。mysql

2).不擅长流式计算。SparkStream flink适合。

3).不擅长DAG有向无环图计算。spark

3.Mapreduce核心思想-WordCount案例

例如:统计其中每一个单词出现的总次数(查询结果:a-p 一个文件,q-z一个文件)

Map阶段:分阶段

Reduce阶段:统计阶段

MapReduce程序运行时有三类进程:

1)、MrAppMaster:负责整个程序的过程调度及状态协调。

2)、MapTask:负责Map阶段整个数据处理流程处理。

3)、ReduceTask:负责Reduce阶段的整个处理流程。

说这是一个任务,一个job,一个mr都是一个事情

二、序列化

1.常用序列化进程:

除了String类型变成Text,其他类型都在Java类型基础上加Writable.

|------------|-----------------------|
| Java类型 | Hadoop Writable类型 |
| Boolean | BooleanWritable |
| Byte | ByteWritable |
| Int | IntWritable |
| Float | FloatWritable |
| Long | LongWritable |
| Double | DoubleWritable |
| String | Text |
| Map | MapWritable |
| Array | ArrayWritable |
| Null | NullWritable |

三、核心框架原理

1.输入数据InputFormat

2.shuffle

3.输出数据OutputFormat

4.join

5.ETL

hadoop作为etl工具之一。

清理的过程只需要在Mapper程序进行,不需要运行Reduce程序。

6.总结

四、压缩

1、有哪些压缩算法

2.特点

3.在生产上怎么用

五、常见的问题及解决方案

82-125跳过去

相关推荐
佳佳ckx666666cky1 分钟前
拆解美团UV量提高的底层逻辑:从流量获取到留存的全链路优化
大数据·uv量提高·美团uv量提高·美团uv量·美团uv提高
狒狒热知识2 分钟前
2026软文品牌推广行业精准适配:四大核心升级趋势:重构行业服务生态
大数据·人工智能
数说星榆1812 分钟前
软件升级全流程步骤详解 在线画图工具绘制流程图教程
大数据·人工智能·架构·流程图
weixin_480641612 分钟前
一款全能型 AI 设计修图工具实测:椒图 AI,Nano Banana Pro 加持,电商 / 修图 / 设计一站式解决
大数据·图像处理·人工智能·ai作画·stable diffusion·aigc·midjourney
STLearner4 分钟前
ICLR 2026 | 时空数据(Spatial-Temporal)论文总结[上](交通与城市科学:交通预测,轨迹挖掘,自动驾驶等)
大数据·论文阅读·人工智能·深度学习·机器学习·数据挖掘·自动驾驶
财迅通Ai8 分钟前
天立招生突破性增长:转学生增长352% AI教育战略全面落地
大数据·人工智能·天立国际控股·天立教育
LEAKSENSE9 分钟前
漏液报警器白皮书:技术革新×应用实践·未来蓝图
大数据·人工智能·python
隔壁小邓20 分钟前
git merge 命令行操作
大数据·git·elasticsearch
安科瑞-小李24 分钟前
分布式光伏与虚拟储能联合优化调度策略研究
大数据·人工智能·充电桩·碳交易·碳管理
high201127 分钟前
【Auron】-- 让 Spark SQL/DataFrame 跑得更快
大数据·sql·spark