一、Hadoop介绍
狭义上Hadoop指的是Apache软件基金会的一款开源软件。
用java语言实现,开源,允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理。
Hadoop核心组件
Hadoop HDFS(分布式文件存储系统):解决海量数据存储。
Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度。
Hadoop MapReduce(分布式计算框架):解决海量数据计算。
广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。
Hadoop发展简史
Hadoop之父:Doug Cutting。
Hadoop起源于Apache Lucene子项目:Nutch。
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题。
二、Hadoop现状
HDFS作为分布式文件存储系统,处在生态圈的底层与核心地位;
YARN作为分布式通用的集群资源管理系统和任务调度平台,支撑各种计算引擎运行,保证了Hadoop地位;
MapReduce作为大数据生态圈第一代分布式计算引擎,由于自身设计的模型所产生的弊端,导致企业一线几乎不再直接使用MapReduce进行编程处理,但是很多软件的底层依然在使用MapReduce引擎来处理数据。
三、Hadoop特性优点
3.1 Hadoop特性优点
扩容能力(scalability)Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可方便灵活的方式扩展到数以千计的节点。
成本低(Economical)Hadoop集群允许通过部署普通廉价的机器组成集群来处理大数据,以至于成本很低。看重的是集群整体能力。
效率高(efficiency)通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
可靠性(reliability)能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。
3.2 Hadoop国外应用
Yahoo:
支持广告系统。
用户行为分析。
支持Web搜索。
反垃圾邮件系统。
Facebook:
存储处理数据挖掘和日志统计。
构建基于Hadoop数据仓库平台(Apache Hive来自FB)。
IBM:
蓝云基础设施构建。
商业化Hadoop发行、解决方案支持。
3.3 Hadoop国内应用
百度:
用户搜索表征的需求数据、阿拉丁爬虫数据存储。
数据分析和挖掘 竞价排名。
阿里巴巴:
为电子商务网络平台提供底层的基础计算和存储服务。
交易数据、信用数据。
腾讯:
用户关系数据
基于Hadoop、Hive构建TDW(腾讯分布式数据仓库)。
华为:
对Hadoop的HA方案,以及HBase领域有深入研究。
Hadoop成功的魅力--通用性。
精准区分做什么和怎么做
做什么属于业务问题 怎么做属于技术问题。
用户负责业务 Hadoop负责技术
Hadoop成功的魅力--简单。
四、Hadoop发行版本、架构变迁
4.1 Hadoop发行版本
开源社区版:
Apache开源社区发行,也是官方发行版本
优点:更新迭代快。
缺点:兼容稳定性不周。
商业发行版:
商业公司发行,基于Apache开源协议,某些服务需要收费。
优点:稳定兼容好。
缺点:收费 版本更新慢。
4. 2 Hadoop发行版本
Apache开源社区版本:
http://hadoop.apache.org/
商业发行版本:
Cloudera:https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks :https://www.cloudera.com/products/hdp.html
4. 3 Hadoop架构变迁
Hadoop 1.0
HDFS(分布式文件存储)。
MapReduce(资源管理和分布式数据处理)。
Hadoop 2.0
HDFS(分布式文件存储)。
MapReduce(分布式数据处理)。
YARN(集群资源管理、任务调度)。
Hadoop 3.0 架构组件和Hadoop 2.0类似,3.0着重于性能优化。
通用方面:
精简内核、类路径隔离、shell脚本重构。
Hadoop HDFS:
EC纠删码、多NameNode支持。
Hadoop MapReduce:
任务本地化优化、内存参数自动推断。
Hadoop YARN:
Timeline Service V2、队列配置。
五、Hadoop集群环境
Hadoop集群包括两个集群:HDFS集群、YARN集群。
两个集群逻辑上分离、通常物理上在一起。
两个集群都是标准的主从架构集群。
HDFS集群、YARN集群和角色:

Hadoop安装包目录结构:
| 目录 | 说明 |
|---|---|
| bin | Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。 |
| etc | Hadoop配置文件所在的目录 |
| include | 对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。 |
| lib | 该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。 |
| libexec | 各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。 |
| sbin | Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。 |
| share | Hadoop各个模块编译后的jar包所在的目录,官方自带示例。 |
六、Hadoop集群启停命令、Web UI
shell脚本一键启停:
HDFS集群
powershell
start-dfs.sh
stop-dfs.sh
YARN集群
powershell
start-yarn.sh
stop-yarn.sh
Hadoop集群
powershell
start-all.sh
stop-all.sh
HDFS集群:
地址:http://namenode_host:9870
其中namenode_host是namenode运行所在机器的主机名或者ip。
YARN集群:
地址:http://resourcemanager_host:8088
其中resourcemanager_host是resourcemanager运行所在机器的主机名或者ip。
七、文件系统、分布式文件系统
文件系统定义:
文件系统是一种存储和组织数据的方法,实现了数据的存储、分级组织、访问和获取等操作,使得用户对文件访问和查找变得容易;
文件系统使用树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念,用户不必关心数据底层存在硬盘哪里,只需要记住这个文件的所属目录和文件名即可;
文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置。
7.1 传统的文件系统
所谓传统常见的文件系统更多指的的单机的文件系统,也就是底层不会横跨多台机器实现。比如windows操作系统
上的文件系统、Linux上的文件系统、FTP文件系统等等。
这些文件系统的共同特征包括:
- 带有抽象的目录树结构,树都是从/根目录开始往下蔓延;
- 树中节点分为两类:目录和文件;
- 从根目录开始,节点路径具有唯一性。
7.2 数据、元数据
数据:
指存储的内容本身,比如文件、视频、图片等,这些数据底层最终是存储在磁盘等存储介质上的,一般用户无需关心,只需要基于目录树进行增删改查即可,实际针对数据的操作由文件系统完成。
元数据:
元数据(metadata)又称之为解释性数据,记录数据的数据;
文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息。
7.3 分布式存储系统的核心属性及功能含义
分布式存储系统核心属性:
• 分布式存储
• 元数据记录
• 分块存储
• 副本机制
一、分布式存储的优点
问题:数据量大,单机存储遇到瓶颈
解决:
单机纵向扩展:磁盘不够加磁盘,有上限瓶颈限制。
多机横向扩展:机器不够加机器,理论上无限扩展。
二、元数据记录的
问题:文件分布在不同机器上不利于寻找。
解决:元数据记录下文件及其存储位置信息,快速定位文件位置。
三、分块存储好处
问题:文件过大导致单机存不下、上传下载效率低。
解决:文件分块存储在不同机器,针对块并行操作提高效率。
四:副本机制的作用
问题:硬件故障难以避免,数据易丢失。
解决:不同机器设置备份,冗余存储,保障数据安全。
八、HDFS简介
8.1 HDFS简介
HDFS(Hadoop Distributed File System ),意为:Hadoop分布式文件系统。
是Apache Hadoop核心组件之一,作为大数据生态圈最底层的分布式存储服务而存在。也可以说大数据首先要解决的问题就是海量数据的存储问题。
- HDFS主要是解决大数据如何存储问题的。分布式意味着是HDFS是横跨在多台计算机上的存储系统。
- HDFS是一种能够在普通硬件上运行的分布式文件系统,它是高度容错的,适应于具有大数据集的应用程序,它非常适于存储大型数据 (比如 TB 和 PB)。
- HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。
8.2 HDFS起源发展
- Doug Cutting领导Nutch项目研发,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能。
- 随着爬虫抓取网页数量的增加,遇到了严重的可扩展性问题------如何解决数十亿网页的存储和索引问题。
- 2003年的时候, Google 发表的论文为该问题提供了可行的解决方案。
《分布式文件系统(GFS),可用于处理海量网页的存储》 - Nutch的开发人员完成了相应的开源实现HDFS,并从Nutch中剥离和MapReduce成为独立项目HADOOP。
8.3 HDFS设计目标
- 硬件故障(Hardware Failure)是常态, HDFS可能有成百上千的服务器组成,每一个组件都有可能出现故障。因此故障检测和自动快速恢复是HDFS的核心架构目标。
- HDFS上的应用主要是以流式读取数据(Streaming Data Access)。HDFS被设计成用于批处理,而不是用户交互式的。相较于数据访问的反应时间,更注重数据访问的高吞吐量。
- 典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件(Large Data Sets)。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。
- 大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。
- 移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好。
- HDFS被设计为可从一个平台轻松移植到另一个平台。这有助于将HDFS广泛用作大量应用程序的首选平台。
8.4 HDFS重要特性
主从架构。
分块存储。
副本机制。
元数据记录。
抽象统一的目录树结构(namespace)。
(1)主从架构
HDFS集群是标准的master/slave主从架构集群。
- 一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。
- Namenode是HDFS主节点,Datanode是HDFS从节点,两种角色各司其职,共同协调完成分布式的文件存储服务。
- 官方架构图中是一主五从模式,其中五个从角色位于两个机架(Rack)的不同服务器上。

(2)分块存储
HDFS中的文件在物理上是分块存储(block)的,默认大小是128M(134217728),不足128M则本身就是一块。
块的大小可以通过配置参数来规定,参数位于hdfs-default.xml中:dfs.blocksize。
(3)副本机制
文件的所有block都会有副本。副本系数可以在文件创建的时候指定,也可以在之后通过命令改变。
副本数由参数dfs.replication控制,默认值是3,也就是会额外再复制2份,连同本身总共3份副本。

(4)元数据管理
在HDFS中,Namenode管理的元数据具有两种类型:
- 文件自身属性信息。
文件名称、权限,修改时间,文件大小,复制因子,数据块大小。 - 文件块位置映射信息。
记录文件块和DataNode之间的映射信息,即哪个块位于哪个节点上。
(5)namespace
- HDFS支持传统的层次型文件组织结构。用户可以创建目录,然后将文件保存在这些目录里。文件系统名字空间的
层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件。 - Namenode负责维护文件系统的namespace名称空间,任何对文件系统名称空间或属性的修改都将被Namenode
记录下来。 - HDFS会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。
(6)数据块存储
- 文件的各个block的具体存储管理由DataNode节点承担。
- 每一个block都可以在多个DataNode上存储。
九、HDFS shell命令
9.1 HDFS shell命令行说明
- 命令行界面(英语:command-line interface,缩写:CLI),是指用户通过键盘输入指令,计算机接收到指令后
,予以执行一种人际交互方式。 - Hadoop提供了文件系统的shell命令行客户端: hadoop fs [generic options]
文件系统协议:
HDFS Shell CLI支持操作多种文件系统,包括本地文件系统(file:///)、分布式文件系统(hdfs://nn:8020)等。
具体操作的是什么文件系统取决于命令中文件路径URL中的前缀协议。
如果没有指定前缀,则将会读取环境变量中的fs.defaultFS属性,以该属性值作为默认文件系统。
区别:
- hadoop dfs 只能操作HDFS文件系统(包括与Local FS间的操作),不过已经Deprecated;
- hdfs dfs 只能操作HDFS文件系统相关(包括与Local FS间的操作),常用;
- hadoop fs 可操作任意文件系统,不仅仅是hdfs文件系统,使用范围更广;
可以通过hadoop fs -help命令来查看每个命令的详细用法。
9.2 HDFS shell命令行常用操作
1.创建文件夹:
hadoop fs -mkdir [-p] ...
path 为待创建的目录
-p选项的行为与Unix mkdir -p非常相似,它会沿着路径创建父目录。
powershell
hadoop fs -mkdir /testdir
2、查看指定目录下内容:
hadoop fs -ls [-h] [-R] [ ...]
path 指定目录路径
-h 人性化显示文件size
-R 递归查看指定目录及其子目录
powershell
hadoop fs -ls /
3、上传文件到HDFS指定目录下:
hadoop fs -put [-f] [-p] ...
-f 覆盖目标文件(已存在下)
-p 保留访问和修改时间,所有权和权限。
localsrc 本地文件系统(客户端所在机器)
dst 目标文件系统(HDFS)
powershell
hadoop fs -put zookeeper.out /testdir
hadoop fs -put file:///etc/profile hdfs://node1:8020/testdir
4、查看HDFS文件内容:
hadoop fs -cat ...
读取指定文件全部内容,显示在标准输出控制台。
注意:对于大文件内容读取,慎重。
powershell
hadoop fs -cat /testdir/zookeeper.out
5、下载HDFS文件:
hadoop fs -get [-f] [-p] ...
下载文件到本地文件系统指定目录,localdst必须是目录
-f 覆盖目标文件(已存在下)
-p 保留访问和修改时间,所有权和权限。
powershell
hadoop fs -get /testdir/zookeeper.out ./
6、拷贝HDFS文件:
hadoop fs -cp [-f] ...
-f 覆盖目标文件(已存在下)
powershell
hadoop fs -cp /small/1.txt /testdir
hadoop fs -cp /small/1.txt /testdir/666.txt #重命令
hadoop fs -ls /testdir
7、追加数据到HDFS文件中:
hadoop fs -appendToFile ...
将所有给定本地文件的内容追加到给定dst文件。
dst如果文件不存在,将创建该文件。
如果为-,则输入为从标准输入中读取。
powershell
hadoop fs -appendToFile 2.txt 3.txt /1.txt
# 查看
hadoop fs -cat /1.txt
8、HDFS数据移动操作:
hadoop fs -mv ...
移动文件到指定文件夹下
可以使用该命令移动数据,重命名文件的名称
9.HDFS shell其他命令:
命令官方指导文档:
https://hadoop.apache.org/docs/r3.3.0/hadoop-project-dist/hadoop-common/FileSystemShell.htm
十、HDFS读写数据流程
10.1 HDFS写数据流程(上传文件)
Pipeline管道概念
Pipeline,中文翻译为管道。这是HDFS在上传文件写数据过程中采用的一种数据传输方式。
客户端将数据块写入第一个数据节点,第一个数据节点保存数据之后再将块复制到第二个数据节点,后者保存后将其复制到第三个数据节点。
为什么datanode之间采用pipeline线性传输
为什么datanode之间采用pipeline线性传输,而不是一次给三个datanode拓扑式传输呢?
因为数据以管道的方式,顺序的沿着一个方向传输,这样能够充分利用每个机器的带宽,避免网络瓶颈和高延迟时的连接,最小化推送所有数据的延时。
在线性推送模式下,每台机器所有的出口宽带都用于以最快的速度传输数据,而不是在多个接受者之间分配宽带。
ACK应答响应
ACK (Acknowledge character)即是确认字符,在数据通信中,接收方发给发送方的一种传输类控制字符。表示
发来的数据已确认接收无误。
在HDFS pipeline管道传输数据的过程中,传输的反方向会进行ACK校验,确保数据传输安全。
HDFS写数据流程(上传文件):

1、HDFS客户端创建对象实例DistributedFileSystem, 该对象中封装了与HDFS文件系统操作的相关方法。
2、调用DistributedFileSystem对象的create()方法,通过RPC请求NameNode创建文件。NameNode执行各种检查判断:目标文件是否存在、父目录是否存在、客户端是否具有创建该文件的权限。检查通过,NameNode就会为本次请求记下一条记录,返回FSDataOutputStream输出流对象给客户端用于写数据。
3、客户端通过FSDataOutputStream输出流开始写入数据。
4、客户端写入数据时,将数据分成一个个数据包(packet 默认64k), 内部组件DataStreamer请求NameNode挑选出适合存储数据副本的一组DataNode地址,默认是3副本存储。DataStreamer将数据包流式传输到pipeline的第一个DataNode,该DataNode存储数据包并将它发送到pipeline的第二个DataNode。同样,第二个DataNode存储数据包并且发送给第三个(也是最后一个)DataNode。
5、传输的反方向上,会通过ACK机制校验数据包传输是否成功;
6、客户端完成数据写入后,在FSDataOutputStream输出流上调用close()方法关闭
7、DistributedFileSystem联系NameNode告知其文件写入完成,等待NameNode确认。
因为namenode已经知道文件由哪些块组成(DataStream请求分配数据块),因此仅需等待最小复制块即可成功返回。
最小复制是由参数dfs.namenode.replication.min指定,默认是1。
10.2 HDFS读数据流程(下载文件)
HDFS读数据流程:

1、HDFS客户端创建对象实例DistributedFileSystem, 调用该对象的open()方法来打开希望读取的文件。
2、DistributedFileSystem使用RPC调用namenode来确定文件中前几个块的块位置(分批次读取)信息。对于每个块,namenode返回具有该块所有副本的datanode位置地址列表,并且该地址列表是排序好的,与客户端的网络拓扑距离近的排序靠前。
3、DistributedFileSystem将FSDataInputStream输入流返回到客户端以供其读取数据。
4、客户端在FSDataInputStream输入流上调用read()方法。然后,已存储DataNode地址的InputStream连接到文件中第一个块的最近的DataNode。数据从DataNode流回客户端,结果客户端可以在流上重复调用read()。
5、当该块结束时,FSDataInputStream将关闭与DataNode的连接,然后寻找下一个block块的最佳datanode位置。这些操作对用户来说是透明的。所以用户感觉起来它一直在读取一个连续的流。客户端从流中读取数据时,也会根据需要询问NameNode来检索下一批数据块的DataNode位置信息。
6、一旦客户端完成读取,就对FSDataInputStream调用close()方法。
