【人机交互 复习】第2章 Hadoop

一、概念

1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,

2.特点:

高可靠性,高效性,高可扩展性,高容错性

运行在Linux平台上,支持多种编程语言

二、Hadoop生态系统(要求熟读)

|------------|--------------------------------------------|
| 组件 | 功能 |
| HDFS | 分布式文件系统 |
| MapReduce | 分布式并行编程模型 |
| YARN | 资源管理和调度器 |
| Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
| Hive | Hadoop上的数据仓库 |
| HBase | Hadoop上的非关系型的分布式数据库 |
| Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
| Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
| Oozie | Hadoop上的工作流管理系统 |
| Zookeeper | 提供分布式协调一致性服务 |
| Storm | 流计算框架 |
| Flume | 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 |
| Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
| Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 |
| Spark | 类似于Hadoop MapReduce的通用并行框架 |

三、习题

1.Hadoop 1.0不包括下列哪个组件(C)

A) HDFS

B) MapReduce

C) Yarn

2.HDFS是(A)

A) 分布式文件系统

B) 分布式并行计算框架

C) 批处理框架

D) 资源管理器

3.HBase是(C)

A) 关系数据库

B) 键值数据库

C) 分布式列式数据库

D) 文档数据库

4.以下选项中,关于Hadoop特性的描述错误的是(D)

A) 采用冗余数据存储方式

B) 可以高效的处理PB级数据

C) 对失败的任务可以自动进行重新分配

D) 只能运行在Linux系统中

5.下列没有自定义类SQL语言的工具是(B)

A) Pig

B) MapReduce

C) Hive

D) Spark

记住MapReduce这个老登和新登是有差别的

6.不可以提供流计算功能是(B)

A) Spark

B) MapReduce

C) Storm

D) Flink

虽然流计算本身不一定是优秀的,但是在大数据中流计算就是可以理解为nb的东西,只有新玩意才会

7.关于Zookeeper,以下选项中描述错误的是(B)

A) 高效可靠的协同工作系统

B) 在Hadoop和关系数据库之间交换数据

C) 提供分布式锁服务

D) 用于构建分布式应用,减轻分布式应用程序所承担的协调任务

它并不用于在Hadoop和关系数据库之间直接交换数据,而是专注于分布式系统的协调和管理。

8.关于Hadoop的安装,以下选项中描述错误的是(D)

A) 分布式需要配置SSH免密服务

B) 需要JDK的支持

C) 可以配置为单机模式

D) 单机模式就是伪分布式模式

单机模式是运行在单个节点上,伪分布式是在一台机器上模拟一个小集群

9.关于Hadoop伪分布式安装,以下选项中描述错误的是(B)

A) 副本数应配置为1

B) start-all.sh不可以启动hdfs和yarn

C) Jps用来查看已启动的进程,完全启动的hadoop应该包含5个hadoop进程

D) 伪分布式安装是在一台机器上模拟一个小的集群。

在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.shstart-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。

在伪分布式模式下,由于只有一台机器,通常将副本数配置为1。

10.关于配置命令,以下选项中描述错误的是(A)

A) Start-dfs可以启动hdfs和yarn

B) Stop-dfs可以停止hdfs服务

C) Hdfs配置好启动前应格式化名称节点

D) Yarn相关的进程是ResourceManager和NodeManager

少个all

相关推荐
hankl19901 小时前
Hive-定时清理无用的临时表
数据仓库·hive·hadoop
java1234_小锋1 小时前
对于GC方面,在使用Elasticsearch时要注意什么?
大数据·elasticsearch·jenkins
Elastic 中国社区官方博客1 小时前
Elasticsearch:Retrievers 介绍
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
xnuscd2 小时前
milvus es
大数据·elasticsearch·milvus
字节跳动数据平台2 小时前
火山引擎VeDI在AI+BI领域的演进与实践
大数据
soso19682 小时前
构建与优化数据仓库-实践指南
大数据·数据仓库·人工智能
九河云4 小时前
华为云国内版与国际版的差异
大数据·服务器·华为云
Yz987611 小时前
Hive的基础函数-日期函数
大数据·数据仓库·hive·hadoop·sql·数据库架构·big data
Mephisto.java13 小时前
【大数据学习 | Spark-Core】详解Spark的Shuffle阶段
大数据·学习·spark
FreeIPCC13 小时前
电话机器人是什么?
大数据·人工智能·语言模型·机器人·开源·信息与通信