大数据核心面试题（Hadoop，Spark，YARN）

- - 高频面试题及答案
  - - [1. 什么是Hadoop？它的核心组件有哪些？](#1. 什么是Hadoop？它的核心组件有哪些？)
    - [2. 解释HDFS的架构及其工作原理。](#2. 解释HDFS的架构及其工作原理。)
    - [3. HDFS如何保证数据的高可用性和容错性？](#3. HDFS如何保证数据的高可用性和容错性？)
    - [4. 什么是NameNode和DataNode？它们的区别是什么？](#4. 什么是NameNode和DataNode？它们的区别是什么？)
    - [5. 解释MapReduce编程模型及其主要组成部分。](#5. 解释MapReduce编程模型及其主要组成部分。)
    - [6. HDFS的读写流程是怎样的？](#6. HDFS的读写流程是怎样的？)
    - [7. 什么是Secondary NameNode？它的作用是什么？](#7. 什么是Secondary NameNode？它的作用是什么？)
    - [8. 如何处理NameNode的单点故障问题？](#8. 如何处理NameNode的单点故障问题？)
    - [9. 什么是Hadoop的块（Block）？为什么要使用块？](#9. 什么是Hadoop的块（Block）？为什么要使用块？)
    - [10. HDFS中的数据块大小可以配置吗？如果可以，如何配置？](#10. HDFS中的数据块大小可以配置吗？如果可以，如何配置？)
    - [11. 什么是Apache Spark？它有哪些核心组件？](#11. 什么是Apache Spark？它有哪些核心组件？)
    - [12. 什么是RDD（Resilient Distributed Dataset）？其特性有哪些？](#12. 什么是RDD（Resilient Distributed Dataset）？其特性有哪些？)
    - [13. Spark的执行模型是怎样的？](#13. Spark的执行模型是怎样的？)
    - [14. 解释Spark SQL和DataFrame的概念。](#14. 解释Spark SQL和DataFrame的概念。)
    - [15. 什么是Spark Streaming？它是如何处理流数据的？](#15. 什么是Spark Streaming？它是如何处理流数据的？)
    - [16. 什么是宽依赖和窄依赖？举例说明。](#16. 什么是宽依赖和窄依赖？举例说明。)
    - [17. 什么是Spark的持久化（Persistence）机制？](#17. 什么是Spark的持久化（Persistence）机制？)
    - [18. 解释Spark中的Shuffle操作及其优化方法。](#18. 解释Spark中的Shuffle操作及其优化方法。)
    - [19. 什么是广播变量和累加器？它们的作用是什么？](#19. 什么是广播变量和累加器？它们的作用是什么？)
    - [20. 如何在YARN上运行Spark应用程序？](#20. 如何在YARN上运行Spark应用程序？)
    - [21. 什么是YARN？它的主要组件有哪些？](#21. 什么是YARN？它的主要组件有哪些？)
    - [22. YARN的架构是怎样的？](#22. YARN的架构是怎样的？)
    - [23. ResourceManager的主要功能是什么？](#23. ResourceManager的主要功能是什么？)
    - [24. NodeManager的作用是什么？](#24. NodeManager的作用是什么？)
    - [25. ApplicationMaster的职责是什么？](#25. ApplicationMaster的职责是什么？)
    - [26. 什么是YARN的Container？其作用是什么？](#26. 什么是YARN的Container？其作用是什么？)
    - [27. YARN的资源调度策略有哪些？](#27. YARN的资源调度策略有哪些？)
    - [28. YARN如何进行资源管理和作业调度？](#28. YARN如何进行资源管理和作业调度？)
    - [29. 如何在YARN上运行一个Hadoop作业？](#29. 如何在YARN上运行一个Hadoop作业？)
    - [30. YARN如何处理应用程序的失败和容错？](#30. YARN如何处理应用程序的失败和容错？)

高频面试题及答案

1. 什么是Hadoop？它的核心组件有哪些？

回答：

Hadoop是一个用于存储和处理大规模数据集的开源框架。它的核心组件包括：

HDFS（Hadoop Distributed File System）： 用于分布式存储数据。
MapReduce： 用于分布式数据处理的计算框架。
YARN（Yet Another Resource Negotiator）： 用于资源管理和作业调度。

2. 解释HDFS的架构及其工作原理。

回答：

HDFS是一个主从架构，由NameNode和DataNode组成：

NameNode： 管理元数据，如文件名、块位置等。
DataNode： 存储实际的数据块。
工作原理：
数据存储： 文件被分割成块（默认128MB），每个块被复制到多个DataNode上（默认3个副本）。
数据读取： 客户端通过NameNode获取数据块的位置信息，然后直接从DataNode读取数据。

3. HDFS如何保证数据的高可用性和容错性？

回答：

HDFS通过数据块的复制机制来保证高可用性和容错性。每个数据块会被复制到多个（默认3个）不同的DataNode上，以确保即使某些节点发生故障，数据仍然可以从其他副本中获取。

4. 什么是NameNode和DataNode？它们的区别是什么？

回答：

NameNode： 负责管理HDFS的元数据，包括文件目录结构、文件到块的映射以及每个块的副本位置。它是HDFS的单点故障。
DataNode： 负责存储实际的数据块，并定期向NameNode报告其存储的块信息。

5. 解释MapReduce编程模型及其主要组成部分。

回答：

MapReduce是Hadoop的分布式计算模型，包括两个主要步骤：

Map： 将输入数据分割成键值对，进行分布式处理，生成中间键值对。
Reduce： 对中间键值对进行汇总处理，生成最终结果。
主要组成部分：
Mapper： 处理输入数据并生成中间键值对。
Reducer： 处理中间键值对并生成最终结果。
Combiner： 可选的本地化Reducer，用于减少网络传输量。

6. HDFS的读写流程是怎样的？

回答：
数据写入流程：

客户端请求NameNode创建文件。
NameNode返回DataNode列表，用于存储数据块副本。
客户端将数据块分片并并行写入指定的DataNode。
DataNode将数据块复制到其他副本节点。

数据读取流程：

客户端请求NameNode获取文件块的位置信息。
NameNode返回存储该块的DataNode列表。
客户端并行读取各个DataNode上的数据块。

7. 什么是Secondary NameNode？它的作用是什么？

回答：

Secondary NameNode不是NameNode的备份节点，而是一个辅助节点，负责定期获取NameNode的元数据快照和编辑日志，将其合并以减少NameNode的启动时间和编辑日志的长度。

8. 如何处理NameNode的单点故障问题？

回答：

可以通过使用Hadoop 2.x引入的高可用性（HA）机制来处理NameNode的单点故障问题。HA架构下，有一个Active NameNode和一个Standby NameNode，Active NameNode故障时，Standby NameNode可以接管工作。

9. 什么是Hadoop的块（Block）？为什么要使用块？

回答：

块是HDFS中存储数据的基本单位，默认大小为128MB。使用块有以下好处：

大文件可以分块并行存储和处理，提升性能。
易于数据的复制和容错管理。
简化了存储空间管理。

10. HDFS中的数据块大小可以配置吗？如果可以，如何配置？

回答：

可以配置HDFS中的数据块大小。通过修改hdfs-site.xml文件中的dfs.blocksize属性来设置所需的块大小，例如：

xml 复制代码

<property>
  <name>dfs.blocksize</name>
  <value>134217728</value> <!-- 128MB -->
</property>

11. 什么是Apache Spark？它有哪些核心组件？

回答：

Apache Spark是一个用于大数据处理的快速、通用的集群计算系统。其核心组件包括：

Spark Core： 提供基本的任务调度、内存管理、错误恢复等功能。
Spark SQL： 处理结构化数据的模块，支持SQL查询。
Spark Streaming： 处理实时数据流的模块。
MLlib： 机器学习库。
GraphX： 图计算库。

12. 什么是RDD（Resilient Distributed Dataset）？其特性有哪些？

回答：

RDD是Spark的基本抽象，代表一个不可变的分布式数据集合。其主要特性包括：

容错性： 通过血统（lineage）记录生成RDD的操作序列，以在节点故障时重算丢失的数据。
分区性： 数据被分成多个分区，并行存储和处理。
惰性计算： 转换操作是惰性执行的，只有在行动操作触发时才会计算。
不可变性： 一旦创建后就不可修改，只能通过转换生成新的RDD。

13. Spark的执行模型是怎样的？

回答：

Spark的执行模型包括以下角色和步骤：

Driver： 运行用户的main方法，负责任务的分配和调度。
Executor： 在工作节点上运行，负责实际执行任务，并将结果返回给Driver。
Job： 由行动操作触发的整个计算过程。
Stage： Job分解成多个阶段，每个阶段由一系列并行的任务组成。
Task： 最小的计算单元，一个任务对应RDD的一个分区。

14. 解释Spark SQL和DataFrame的概念。

回答：

Spark SQL是用于处理结构化数据的模块，支持SQL查询、数据框（DataFrame）和数据集（Dataset）。DataFrame是分布式的数据集，类似于传统数据库中的表，提供了更高级的API和优化功能，如列式存储、谓词下推等。

15. 什么是Spark Streaming？它是如何处理流数据的？

回答：

Spark Streaming用于处理实时数据流。其核心概念是DStream（Discretized Stream），将实时数据流分成一系列的小批次（micro-batches），每个批次作为RDD处理，从而将实时数据处理转化为一系列批处理操作。

16. 什么是宽依赖和窄依赖？举例说明。

回答：

窄依赖： 每个父RDD的分区最多被一个子RDD的分区使用。例如，map和filter操作。
宽依赖： 每个父RDD的分区可能被多个子RDD的分区使用，需要进行Shuffle。例如，groupByKey和reduceByKey操作。

17. 什么是Spark的持久化（Persistence）机制？

回答：

持久化机制用于将RDD存储在内存或磁盘中，以便重复使用。可以通过调用persist()或cache()方法实现。不同的存储级别包括：

MEMORY_ONLY： 仅存储在内存中。
MEMORY_AND_DISK： 内存不足时溢写到磁盘。
DISK_ONLY： 仅存储在磁盘中。

18. 解释Spark中的Shuffle操作及其优化方法。

回答：

Shuffle是指将数据从一个节点移动到另一个节点的过程，通常发生在宽依赖操作中。Shuffle操作比较耗时，需要进行网络传输和磁盘IO。优化方法包括：

合适的分区策略： 使用repartition或coalesce调整分区数。
预聚合： 使用combineByKey等操作减少Shuffle的数据量。
广播变量： 对较小的数据集使用广播变量，避免重复传输。

19. 什么是广播变量和累加器？它们的作用是什么？

回答：

广播变量： 用于在所有节点之间共享只读变量，避免每个任务都传输副本。
累加器： 用于在所有节点之间累加共享变量，例如计数器或求和操作。

20. 如何在YARN上运行Spark应用程序？

回答：

可以通过两种模式在YARN上运行Spark应用程序：

Client模式： Driver在客户端本地运行。
Cluster模式： Driver在YARN集群中运行。
提交作业时需要指定--master yarn参数，例如：

shell 复制代码

spark-submit --master yarn --deploy-mode cluster --class <main-class> <jar-file>

21. 什么是YARN？它的主要组件有哪些？

回答：

YARN（Yet Another Resource Negotiator）是Hadoop 2.0中引入的资源管理和作业调度框架。其主要组件包括：

ResourceManager： 管理集群资源和调度应用程序。
NodeManager： 管理每个节点上的资源，负责容器的启动、监控和报告。
ApplicationMaster： 为每个应用程序（作业）管理其生命周期，包括任务的调度和执行。
Container： 资源抽象单元，包含计算资源（CPU、内存）和任务的运行环境。

22. YARN的架构是怎样的？

回答：

YARN的架构是一个主从架构，包括以下角色：

ResourceManager（主节点）： 集中管理集群资源，负责资源的分配和调度。
NodeManager（从节点）： 运行在每个集群节点上，负责管理本地资源，执行和监控容器。
ApplicationMaster（每个应用程序）： 为单个应用程序管理资源申请和任务调度。
Container： 资源分配单元，由NodeManager启动，用于运行任务。

23. ResourceManager的主要功能是什么？

回答：

ResourceManager的主要功能包括：

资源分配： 管理和分配集群中的计算资源（CPU、内存）。
作业调度： 根据调度策略分配资源给不同的应用程序。
监控和管理： 跟踪各个应用程序的资源使用情况和运行状态。

24. NodeManager的作用是什么？

回答：

NodeManager运行在每个集群节点上，其作用包括：

资源管理： 管理节点上的CPU、内存等资源。
容器管理： 启动、监控和终止容器。
资源汇报： 定期向ResourceManager报告节点的资源使用情况和容器状态。

25. ApplicationMaster的职责是什么？

回答：

ApplicationMaster是每个应用程序的专属进程，负责：

资源申请： 向ResourceManager申请资源。
任务调度： 将资源分配给具体的任务，并调度任务的执行。
容错管理： 监控任务执行情况，处理失败的任务并重新调度。

26. 什么是YARN的Container？其作用是什么？

回答：

Container是YARN中资源分配的基本单位，包括了指定数量的CPU和内存资源。Container由NodeManager管理，用于运行任务的执行环境。

27. YARN的资源调度策略有哪些？

回答：

YARN支持多种资源调度策略，常见的有：

Capacity Scheduler： 通过队列配置实现资源的容量调度，适合多租户环境。
Fair Scheduler： 按需分配资源，使得所有应用程序能公平地共享集群资源。
FIFO Scheduler： 先来先服务，按作业提交顺序调度资源。

28. YARN如何进行资源管理和作业调度？

回答：

YARN通过ResourceManager进行集中资源管理和作业调度：

资源管理： ResourceManager接受NodeManager的资源报告，管理整个集群的资源池。
作业调度： ResourceManager根据调度策略将资源分配给不同的ApplicationMaster。ApplicationMaster再将资源分配给具体的任务，并提交给NodeManager执行。

29. 如何在YARN上运行一个Hadoop作业？

回答：

在YARN上运行一个Hadoop作业的步骤：

提交作业： 用户通过客户端提交作业到ResourceManager。
启动ApplicationMaster： ResourceManager分配资源并启动ApplicationMaster。
申请资源： ApplicationMaster向ResourceManager申请资源（容器）。
任务执行： ResourceManager分配容器，NodeManager启动容器并执行任务。
监控和完成： ApplicationMaster监控任务执行情况，所有任务完成后通知ResourceManager。

30. YARN如何处理应用程序的失败和容错？

回答：

YARN通过以下机制处理应用程序的失败和容错：

任务重试： ApplicationMaster监控任务执行情况，如果任务失败，可以重新调度和重试。
ApplicationMaster容错： 如果ApplicationMaster失败，ResourceManager会重启一个新的ApplicationMaster，并从上次失败的状态继续执行。
节点容错： 如果某个NodeManager失败，其上运行的任务会重新调度到其他可用节点。

内容会不定期更新