【人机交互 复习】第2章 Hadoop

一、概念

1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,

2.特点:

高可靠性,高效性,高可扩展性,高容错性

运行在Linux平台上,支持多种编程语言

二、Hadoop生态系统(要求熟读)

|------------|--------------------------------------------|
| 组件 | 功能 |
| HDFS | 分布式文件系统 |
| MapReduce | 分布式并行编程模型 |
| YARN | 资源管理和调度器 |
| Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
| Hive | Hadoop上的数据仓库 |
| HBase | Hadoop上的非关系型的分布式数据库 |
| Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
| Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
| Oozie | Hadoop上的工作流管理系统 |
| Zookeeper | 提供分布式协调一致性服务 |
| Storm | 流计算框架 |
| Flume | 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 |
| Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
| Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 |
| Spark | 类似于Hadoop MapReduce的通用并行框架 |

三、习题

1.Hadoop 1.0不包括下列哪个组件(C)

A) HDFS

B) MapReduce

C) Yarn

2.HDFS是(A)

A) 分布式文件系统

B) 分布式并行计算框架

C) 批处理框架

D) 资源管理器

3.HBase是(C)

A) 关系数据库

B) 键值数据库

C) 分布式列式数据库

D) 文档数据库

4.以下选项中,关于Hadoop特性的描述错误的是(D)

A) 采用冗余数据存储方式

B) 可以高效的处理PB级数据

C) 对失败的任务可以自动进行重新分配

D) 只能运行在Linux系统中

5.下列没有自定义类SQL语言的工具是(B)

A) Pig

B) MapReduce

C) Hive

D) Spark

记住MapReduce这个老登和新登是有差别的

6.不可以提供流计算功能是(B)

A) Spark

B) MapReduce

C) Storm

D) Flink

虽然流计算本身不一定是优秀的,但是在大数据中流计算就是可以理解为nb的东西,只有新玩意才会

7.关于Zookeeper,以下选项中描述错误的是(B)

A) 高效可靠的协同工作系统

B) 在Hadoop和关系数据库之间交换数据

C) 提供分布式锁服务

D) 用于构建分布式应用,减轻分布式应用程序所承担的协调任务

它并不用于在Hadoop和关系数据库之间直接交换数据,而是专注于分布式系统的协调和管理。

8.关于Hadoop的安装,以下选项中描述错误的是(D)

A) 分布式需要配置SSH免密服务

B) 需要JDK的支持

C) 可以配置为单机模式

D) 单机模式就是伪分布式模式

单机模式是运行在单个节点上,伪分布式是在一台机器上模拟一个小集群

9.关于Hadoop伪分布式安装,以下选项中描述错误的是(B)

A) 副本数应配置为1

B) start-all.sh不可以启动hdfs和yarn

C) Jps用来查看已启动的进程,完全启动的hadoop应该包含5个hadoop进程

D) 伪分布式安装是在一台机器上模拟一个小的集群。

在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.shstart-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。

在伪分布式模式下,由于只有一台机器,通常将副本数配置为1。

10.关于配置命令,以下选项中描述错误的是(A)

A) Start-dfs可以启动hdfs和yarn

B) Stop-dfs可以停止hdfs服务

C) Hdfs配置好启动前应格式化名称节点

D) Yarn相关的进程是ResourceManager和NodeManager

少个all

相关推荐
Coder_Boy_10 小时前
技术让开发更轻松的底层矛盾
java·大数据·数据库·人工智能·深度学习
2501_9449347310 小时前
高职大数据技术专业,CDA和Python认证优先考哪个?
大数据·开发语言·python
九河云11 小时前
5秒开服,你的应用部署还卡在“加载中”吗?
大数据·人工智能·安全·机器学习·华为云
Gain_chance11 小时前
36-学习笔记尚硅谷数仓搭建-DWS层数据装载脚本
大数据·数据仓库·笔记·学习
每日新鲜事11 小时前
热销复盘:招商林屿缦岛203套售罄背后的客户逻辑分析
大数据·人工智能
AI架构全栈开发实战笔记12 小时前
Eureka 在大数据环境中的性能优化技巧
大数据·ai·eureka·性能优化
AI架构全栈开发实战笔记12 小时前
Eureka 对大数据领域服务依赖关系的梳理
大数据·ai·云原生·eureka
自挂东南枝�13 小时前
政企舆情大数据服务平台的“全域洞察中枢”
大数据
weisian15113 小时前
Elasticsearch-1--什么是ES?
大数据·elasticsearch·搜索引擎
LaughingZhu13 小时前
Product Hunt 每日热榜 | 2026-02-08
大数据·人工智能·经验分享·搜索引擎·产品运营