Hadoop(林子雨慕课课程)

- [2. Hadoop](#2. Hadoop)
- - [2.1 Hadoop简介](#2.1 Hadoop简介)
  - [2.2 Hadoop版本演变](#2.2 Hadoop版本演变)
  - [2.3 Hadoop项目结构](#2.3 Hadoop项目结构)
  - [2.4 Hadoop集群的部署和使用](#2.4 Hadoop集群的部署和使用)

Hadoop1.0的两大核心：HDFS和MapReduce
Hadoop2.0对mapreduce的资源调度做出划分
- 将1.0版本中关于资源调度的模块单独抽出来，变成一个模块Yarn
Hadoop的发行版：Hortonworks（企业版）、cloudera CDH:Cloudera Distribution Hadoop、MapR
- 易用性
- 性能

集群硬件配置：NameNode和DataNode
MapReduce有两大核心组建：JobTracker和TaskTracker
- JobTracker负责MapReduce的作业管理：将MapReduce的大作业拆分成小作业分发到各个机器上去执行
- 而不同的机器上的协调问题就是TaskTracker：每个TaskTracker负责跟踪执行自己负责的那部分作业
冷备份：SecondNameNode
- NameNode出现故障之后SecondNameNode无法马上顶上去，需要一个恢复的过程
TaskTracker和DataNode可能在同一个机器上面，即这个机器既是TaskTracker又是DataNode
TaskTracker和DataNode的集群硬件配置
NameNode总管家
- 管理各种元数据并提供服务
- NameNode里面有很多元数据都是直接保存在内存当中的
- 小集群可以将secondNameNode和NameNode放在一起，若是集群较大SecondNameNode需要单独设置一台服务器
集群规模
Hadoop集群的部署和使用
- Hadoop自带的一些基准测试程序，被打包在测试程序JAR文件中
- 用TestDFSIO基准测试，来测试HDFS的IO性能
- 用排序测试MapReduce:Hadoop自带的一个部分排序的程序，这个测试过程的整个数据集都会通过洗牌（Shuffle）传输至Reducer，可以充分测试MapReduce的性能