【人机交互 复习】第2章 Hadoop

一、概念

1.Hadoop 是一个能够对大量数据进行分布式处理的软件框架,并 且是以一种可靠、高效、可伸缩的方式进行处理的,

2.特点:

高可靠性,高效性,高可扩展性,高容错性

运行在Linux平台上,支持多种编程语言

二、Hadoop生态系统(要求熟读)

|------------|--------------------------------------------|
| 组件 | 功能 |
| HDFS | 分布式文件系统 |
| MapReduce | 分布式并行编程模型 |
| YARN | 资源管理和调度器 |
| Tez | 运行在YARN之上的下一代Hadoop查询处理框架 |
| Hive | Hadoop上的数据仓库 |
| HBase | Hadoop上的非关系型的分布式数据库 |
| Pig | 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言Pig Latin |
| Sqoop | 用于在Hadoop与传统数据库之间进行数据传递 |
| Oozie | Hadoop上的工作流管理系统 |
| Zookeeper | 提供分布式协调一致性服务 |
| Storm | 流计算框架 |
| Flume | 一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 |
| Ambari | Hadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控 |
| Kafka | 一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据 |
| Spark | 类似于Hadoop MapReduce的通用并行框架 |

三、习题

1.Hadoop 1.0不包括下列哪个组件(C)

A) HDFS

B) MapReduce

C) Yarn

2.HDFS是(A)

A) 分布式文件系统

B) 分布式并行计算框架

C) 批处理框架

D) 资源管理器

3.HBase是(C)

A) 关系数据库

B) 键值数据库

C) 分布式列式数据库

D) 文档数据库

4.以下选项中,关于Hadoop特性的描述错误的是(D)

A) 采用冗余数据存储方式

B) 可以高效的处理PB级数据

C) 对失败的任务可以自动进行重新分配

D) 只能运行在Linux系统中

5.下列没有自定义类SQL语言的工具是(B)

A) Pig

B) MapReduce

C) Hive

D) Spark

记住MapReduce这个老登和新登是有差别的

6.不可以提供流计算功能是(B)

A) Spark

B) MapReduce

C) Storm

D) Flink

虽然流计算本身不一定是优秀的,但是在大数据中流计算就是可以理解为nb的东西,只有新玩意才会

7.关于Zookeeper,以下选项中描述错误的是(B)

A) 高效可靠的协同工作系统

B) 在Hadoop和关系数据库之间交换数据

C) 提供分布式锁服务

D) 用于构建分布式应用,减轻分布式应用程序所承担的协调任务

它并不用于在Hadoop和关系数据库之间直接交换数据,而是专注于分布式系统的协调和管理。

8.关于Hadoop的安装,以下选项中描述错误的是(D)

A) 分布式需要配置SSH免密服务

B) 需要JDK的支持

C) 可以配置为单机模式

D) 单机模式就是伪分布式模式

单机模式是运行在单个节点上,伪分布式是在一台机器上模拟一个小集群

9.关于Hadoop伪分布式安装,以下选项中描述错误的是(B)

A) 副本数应配置为1

B) start-all.sh不可以启动hdfs和yarn

C) Jps用来查看已启动的进程,完全启动的hadoop应该包含5个hadoop进程

D) 伪分布式安装是在一台机器上模拟一个小的集群。

在Hadoop 2.0及以上版本中,start-all.sh 已被拆分为 start-dfs.shstart-yarn.sh,但在旧版本中,start-all.sh 可以启动这两个服务。

在伪分布式模式下,由于只有一台机器,通常将副本数配置为1。

10.关于配置命令,以下选项中描述错误的是(A)

A) Start-dfs可以启动hdfs和yarn

B) Stop-dfs可以停止hdfs服务

C) Hdfs配置好启动前应格式化名称节点

D) Yarn相关的进程是ResourceManager和NodeManager

少个all

相关推荐
缘华工业智维5 小时前
工业设备预测性维护:能源成本降低的“隐藏钥匙”?
大数据·网络·人工智能
NewsMash5 小时前
马来西亚代表团到访愿景娱乐 共探TikTok直播电商增长新路径
大数据·娱乐
凯禾瑞华养老实训室8 小时前
聚焦生活照护能力培育:老年生活照护实训室建设清单的模块设计与资源整合
大数据·人工智能·科技·ar·vr·智慧养老·智慧健康养老服务与管理
Q26433650239 小时前
【有源码】基于Hadoop生态的大数据共享单车数据分析与可视化平台-基于Python与大数据的共享单车多维度数据分析可视化系统
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
计算机毕业设计木哥10 小时前
计算机毕设选题推荐:基于Hadoop和Python的游戏销售大数据可视化分析系统
大数据·开发语言·hadoop·python·信息可视化·spark·课程设计
Lansonli10 小时前
大数据Spark(六十八):Transformation转换算子所有Join操作和union
大数据·分布式·spark
NewsMash10 小时前
贺Filcion五周岁:Chain Shop 10月17号正式上线
大数据
B站_计算机毕业设计之家11 小时前
Python+Flask+Prophet 汽车之家二手车系统 逻辑回归 二手车推荐系统 机器学习(逻辑回归+Echarts 源码+文档)✅
大数据·人工智能·python·机器学习·数据分析·汽车·大屏端
EkihzniY12 小时前
医疗发票 OCR 识别:打通医疗费用处理 “堵点” 的技术助手
大数据·人工智能·ocr