一、概念
1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,
2.特点:
高可靠性,高效性,高可扩展性,高容错性
运行在Linux平台上,支持多种编程语言
二、Hadoop生态系统(要求熟读)
|------------|--------------------------------------------|
| 组件 | 功能 |
| HDFS | 分布式文件系统 |
| MapReduce | 分布式并行编程模型 |
| YARN | 资源管理和调度器 |
| Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
| Hive | Hadoop上的数据仓库 |
| HBase | Hadoop上的非关系型的分布式数据库 |
| Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
| Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
| Oozie | Hadoop上的工作流管理系统 |
| Zookeeper | 提供分布式协调一致性服务 |
| Storm | 流计算框架 |
| Flume | 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 |
| Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
| Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 |
| Spark | 类似于Hadoop MapReduce的通用并行框架 |
三、习题
1.Hadoop 1.0不包括下列哪个组件(C)
A) HDFS
B) MapReduce
C) Yarn
2.HDFS是(A)
A) 分布式文件系统
B) 分布式并行计算框架
C) 批处理框架
D) 资源管理器
3.HBase是(C)
A) 关系数据库
B) 键值数据库
C) 分布式列式数据库
D) 文档数据库
4.以下选项中,关于Hadoop特性的描述错误的是(D)
A) 采用冗余数据存储方式
B) 可以高效的处理PB级数据
C) 对失败的任务可以自动进行重新分配
D) 只能运行在Linux系统中
5.下列没有自定义类SQL语言的工具是(B)
A) Pig
B) MapReduce
C) Hive
D) Spark
记住MapReduce这个老登和新登是有差别的
6.不可以提供流计算功能是(B)
A) Spark
B) MapReduce
C) Storm
D) Flink
虽然流计算本身不一定是优秀的,但是在大数据中流计算就是可以理解为nb的东西,只有新玩意才会
7.关于Zookeeper,以下选项中描述错误的是(B)
A) 高效可靠的协同工作系统
B) 在Hadoop和关系数据库之间交换数据
C) 提供分布式锁服务
D) 用于构建分布式应用,减轻分布式应用程序所承担的协调任务
它并不用于在Hadoop和关系数据库之间直接交换数据,而是专注于分布式系统的协调和管理。
8.关于Hadoop的安装,以下选项中描述错误的是(D)
A) 分布式需要配置SSH免密服务
B) 需要JDK的支持
C) 可以配置为单机模式
D) 单机模式就是伪分布式模式
单机模式是运行在单个节点上,伪分布式是在一台机器上模拟一个小集群
9.关于Hadoop伪分布式安装,以下选项中描述错误的是(B)
A) 副本数应配置为1
B) start-all.sh不可以启动hdfs和yarn
C) Jps用来查看已启动的进程,完全启动的hadoop应该包含5个hadoop进程
D) 伪分布式安装是在一台机器上模拟一个小的集群。
在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.sh 和 start-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。
在伪分布式模式下,由于只有一台机器,通常将副本数配置为1。
10.关于配置命令,以下选项中描述错误的是(A)
A) Start-dfs可以启动hdfs和yarn
B) Stop-dfs可以停止hdfs服务
C) Hdfs配置好启动前应格式化名称节点
D) Yarn相关的进程是ResourceManager和NodeManager
少个all