hadoop面试题

一、单项选择题

1、目前，Hadoop的最高版本是哪个（ A ）

A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x

2、大数据的4V特征是指? （ B ）

A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)

B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)

C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)

D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)

3、HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？（ D ）

A、一个map读取64MB，另外一个map读取11MB

B、128MB C、64MB D、75MB

4、HDFS有一个LZO（with index）文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为？（ A ）

A、一个map读取64MB，另外一个map读取11MB

B、64MB C、75MB D、128MB

5、关于SecondaryNameNode哪项是正确的? （ A ）

A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间

B、它对内存没有要求 C、它是NameNode的热备

D、SecondaryNameNode应与NameNode部署到一个节点

6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? （ C ）

A、hadoop fs --put B、hadoop fs --push /

C、hadoop fs --put / D、hadoop -push /

7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? （ C ）

A、mapred-site.xml B、core-site.xml

C、hdfs-site.xml D、hadoop-env.sh

8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? （ B ）

A、reboot B、hostname C、pwd D、tail

9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? （ A ）

A、3 B、2 C、1 D、4

10、以下哪个不是HDFS的守护进程（ C ）

A、SecondaryNameNode B、NameNode C、MrappMaster/YarnChild D、DataNode

11、大数据至少为以下哪种存储量级? （ B ）

A、EB B、PB C、TB D、ZB

12、关于HDFS集群中的DataNode的描述不正确的是? （ A ）

A、一个DataNode上存储的所有数据块可以有相同的

B、存储客户端上传的数据的数据块

C、DataNode之间可以互相通信

D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

13、MapReduce的Shuffle过程以下中哪个操作是最后做的？（ B ）

A、排序 B、合并 C、分区 D、溢写

14、Hadoop起始于以下哪个阶段？（ D ）

A、2004年，Nutch的开发者开发了NDFS。

B、2004年，Google发表了关于MapReduce的论文。

C、2003年，Google发布了GFS论文。 D、2002年，Apach项目的Nutch。

15、下面哪个程序负责HDFS数据存储。（ C ）

A、NameNode B、Jobtracker C、Datanode D、tasktracker

16、配置机架感知的下面哪项正确？（ C ）

A、MapReduce会根据机架获取离自己比较近的网络数据

B、写入数据的时候会写到不同机架的DataNode

C、都正确 D、如果一个机架出问题，不会影响数据读写

17、下列关于HDFS的描述正确的是? （ A ）

A、NameNode磁盘元数据不保存Block的位置信息

B、DataNode通过长连接与NameNode保持通信

C、HDFS集群支持数据的随机读写

D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作

18、一个gzip文件大小75MB，客户端设置Block大小为64MB，请问其占用几个Block？（ B ）

A、3 B、2 C、4 D、1

19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? （ B ）

A、混合处理系统 B、分布式键值系统 C、批处理系统 D、流处理系统

20、关于大数据的价值密度描述正确的是以下哪个? （ A ）

A、大数据由于其数据量大,所以其价值密度低。

B、大数据由于其数据量大,所以其价值也大。

C、大数据的价值密度是指其数据类型多且复杂。

D、大数据由于其数据量大,所以其价值密度高。

二、多选题

1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? （ AC ）

A、Spark B、Sqoop C、Hive D、Avro

2、大数据的计算模式主要有哪些? （ ABCD ）

A、图计算模式 B、流计算模式 C、查询分析计算模式 D、批处理计算模式

3、Hadoop MapReduce对外提供了5个可编程组件，以下哪对中的方法或任务不全在这

5个编程组件中。（ AB ）

A、Partitioner和Combiner B、Split和Sort

C、InputFormat和OutputFormat D、Mapper和Reducer

4、YARN主要包含的模块有以下哪些？（ ABC ）

A、ApplicationMaster B、ResourceManager

C、NodeManager D、QuorumJournalManager

5、下面哪些是Hadoop 2.x的组件? （ ABC ）

A、Spark B、Hive C、HBase D、GFS

6、Hadoop的三种安装模式包括以下哪种? （ BCD ）

A、两分布式模式 B、完全分布式模式

C、伪分布模式 D、单机模式

7、VMware提供了哪几种工作模式？（ ABD ）

A、host-only仅主机模式 B、NAT模式

C、自定义除以上3种其他模式 D、桥接（bridged）模式

8、Hadoop集群具有以下哪个优点? （ ACD ）

A、高容错性 B、高成本性 C、高可靠性 D、高扩展性

9、关于数据副本的存放策略正确的有些? （ ABCD ）

A、第三个副本:与第一个副本相同机架的其他节点上;

B、更多副本:随机节点。

C、第一个副本,放置在上传文件的数据节点;

D、第二个副本,放置在与第一个副本不同的机架的节点上;

10、以下关于SSH免密码配置的描述正确的选项有哪个？（ ABCD ）

A、SSH专为远程登录会话和其他网络服务提供安全性的协议。

B、SSH是Secure Shell的缩写，则IETF的网络工作小组制定。

C、SSH是建立在应用层和传输导上的安全协议。

D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。

11、大数据采集中面临的主要问题有以下哪些? （ ABCD ）

A、如何避免重复数据 B、数据源多种多样,数据量大、变化快

C、如何保证数据的质量 D、如何保证数据采集的可靠性

12、以下关于文件块的说法正确的是? （ ABCD ）

A、文件的所有Block为了容错都会被冗余复制。

B、除了最后一个Block,所有的Block都是同样的大小。

C、每个文件的Block大小和复制(Replication)因子都是可配置的。

D、HDFS将文件存储成块序列。

13、MapRecue的优点有哪些？（ ACD ）

A、可扩展性强 B、计算机性能高 C、容错性强 D、开发简单

14、以下关于HDFS体系结构的描述正确的有哪几项？（ ABCD ）

A、NameNode作为主结点，用来管理文件系统的元数据（命名空间和访问操作等信息）。

B、DataNode作为从结点，用来管理存储的数据。

C、HDFS采用主从结构模型。

D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。

15、HDFS中常用命令有下面哪些? （ ABCD ）

A、hadoop fs --rm B、hadoop fs --ls

C、hadoop fs --mv D、hadoop fs --put

16、在新的Hadoop MapReduce框架YARN产生之前，MapReduce架构存在的问题有哪些？

（ ABCD ）

A、容易造成TaskTracker端内存溢出 B、JobTrack单点故障问题

C、JobTrack任务过重 D、容易造成资源浪费

17、常用的HDFS API有哪些? （ ABCD ）

A、rename() B、copyFromLocalFile() C、mkdirs() D、delete()

18、以下关于序列化Writable的说法正确的是？（ ABCD ）

A、反序列化也称反串行化，它是指将字节流转回结构化对象的逆过程。

B、Hadoop中使用自己开发的类：IntWritable、FloatWritable、Text等，都是Writable的实现类。

C、序列化和反序列化在分布式数据处理中，主要于进程间通信和永久存储两个领域。

D、Writable接口是一个序列化对象的接口，能够将数据写入流或者从流中读出。

19、大数据关键技术包括哪些? （ ABCD ）

A、大数据存储 B、大数据预处理 C、大数据采集 D、大数据分析挖掘

20大数据中常见的类型有哪些? （ ABCD ）

A、视频 B、图片 C、音频 D、日志

三、判断题

1、Hadoop实现了一个分布式文件系统,简称HDFS。（√ ）

2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。（ √ ）

3、HDFS既适合超大数据集存储,也适合小数据集的存储。（ × ）

4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。（ √ ）

5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。（ √ ）

6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。（ √ ）

7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。（ √ ）

8、HDFS以流的形式访问文件系统中的数据。（ √ ）

9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。（ √ ）

10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。（√ ）

四、填空题

1、（ datanode ）负责HDFS数据存储。

2、hadoop运行的模式有：单机模式、（伪分布模式）、（伪分布模式）。

3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、（ hdfs-site.xml ）

、mapred-site.xml、（，yarn-site.xml ）。

4、一个HDFS集群包括两大部分，即（ namenode ）与（ datanode ）。

5、格式化HDFS系统的命令为：（ hdfs namenode --format ）。

6、hadoop创建多级目录（如：/a/b/c）的命令为（ hadoop fs --mkdir --p /a/b/c ）。

7、hadoop显示根目录命令为：（ hadoop fs --lsr ）。

8、hadoop包含的四大模块分别是： Hadoop common 、（ HDFS ）、（ Mapreduce ）、（ yarn ）。

9、（ job ）是客户端需要执行的一个工作单元。

10、map任务将其输出写入到（本地磁盘）。

11、reduce的输出通常存储在（ HDFS ）中以实现可靠存储。

12、大数据是由结构化和非结构化数据组成的。（ 10% ）的结构化数据，存储在数据库中，（ 90% ）的非结构化数据，它们与人类信息密切相关。

13、大数据关键技术两大核心技术是：（分布式存储或（HDFS））和（分布式处理或（MapReduce））。

五、简答题

hdfs的体系结构是什么？

HDFS采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；集群中的DataNode管理存储的数据。

2、NameNode与SecondaryNameNode的区别与联系？

1）区别

（1）NameNode 负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的

数据块信息。

（2）SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。

2）联系：

（1）SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件（fsimage）和编

辑日志（edits）。

（2）在主 namenode 发生故障时（假设没有及时备份数据），可以从 SecondaryNameNode

恢复数据。

3、hdfs文件写入的流程？

Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

4、完全分布模式又有什么注意点？

完全分布模式通常被用于生产环境，这里我们使用N台主机组成一个Hadoop集群，Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机，Datanode运行的主机，以及task tracker运行的主机。在分布式环境下，主节点和从节点会分开。

5、MapReduce核心思想是什么？

分而治之:就是把一个复杂的问题，按照一定的"分解"方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果

MapReduce是框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种

Map阶段：用于对原始数据进行处理

Reduce阶段：对map阶段数据进行汇总

部分任务不一定需要reduce阶段可能只有map阶段，map阶段产生的数据直接写入HDFS中

有map产生相关key的输出都会集中在到Reduce中处理，reduce是最终的处理过程，其结果不会进行二次处理。

Hadoop系统核心组件之一，它是一种可用于大数据并行处理的计算模型、框架。

6、Hadoop分布式集群，默认备份数为多少，每个数据块大小是多少？在哪个配置文件中可以修改备份数与每个数据块大小？

一、 单项 选择题

二、多 选 题

三、判 断 题

四、填空题

五、简 答 题

一、单项选择题

二、多选题

三、判断题

五、简答题