hadoop-MapReduce

分布式计算模型MapReduce

|-----------------------------------------------------------------------------------------------------------------------------------|
| 1. 理解MapReduce设计思想 2. 理解MapReduce分布式计算的基本原理 3. 掌握使用Java进行MapReduce编程 4. 掌握在Hadoop集群中提交MapReduce任务 |

1. MapReduce设计思想

2. 使用Java进行MapReduce编程

3. Hadoop集群中提交MapReduce任务

|------------------------------------------------------------------------------------------------------------------------------|
| Idea 打包工程成jar包，执行命令 |

4. MapReduce分布式计算的基本原理

|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 4.1 Hadoop 序列化 什么是序列化：序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是磁盘的持久化数据，转换成内存中的对象。 （1）必须可序列化（serializable） 作用：网络传输以及持久化存储 IntWritable 、LongWriteable、FloatWritable、Text、DoubleWritable, BooleanWritable、NullWritable等 （2）都继承了Writable接口 并实现write()和readFields()方法 （3）Keys必须实现WritableComparable接口 MapReduce 框架会按照Key进行排序 Reduce 阶段需要sort keys 需要可比较 |
| 4.2 MapReduce 框架原理 MapReduce 执行流程： （1）split阶段：计算分片 （2）map阶段：调用map()方法对数据进行处理 （3）shffule阶段：主要负责将map端生成的数据传递给reduce端 （4）reduce阶段：对Shffule阶段传来的数据进行最后的整理合并 |
| 4.3 MapTask |
| 4.4 ReduceTask |
| 4.5 InputFormat 数据输入 接口 |
| 4.6 InputSplit （输入分片） |
| 4.7 Shuffle 阶段 数据从Map输出到Reduce输入的过程 |
| 4.8 Combiner 类 （1）Combiner相当于本地化的Reduce操作 在shuffle之前进行本地聚合 用于性能优化，可选项 输入和输出类型一致 （2）Reducer可以被用作Combiner的条件 符合交换律和结合律 （3）实现Combiner job.setCombinerClass(WCReducer.class) |
| 4.9 Partitioner 类 （1）用于在Map端对key进行分区 默认使用的是HashPartitioner 获取key的哈希值 使用key的哈希值对Reduce任务数求模 决定每条记录应该送到哪个Reducer处理 （2）自定义Partitioner 继承抽象类Partitioner，重写getPartition方法 job.setPartitionerClass(MyPartitioner.class) |

分布式计算模型MapReduce

1. MapReduce设计思想

2. 使用Java进行MapReduce编程

3. Hadoop集群中提交MapReduce任务

4. MapReduce分布式计算的基本原理

5. MapReduce实现 SQL Join操作