大数据核心面试题(Hadoop,Spark,YARN)
-
-
- 高频面试题及答案
-
- [1. 什么是Hadoop?它的核心组件有哪些?](#1. 什么是Hadoop?它的核心组件有哪些?)
- [2. 解释HDFS的架构及其工作原理。](#2. 解释HDFS的架构及其工作原理。)
- [3. HDFS如何保证数据的高可用性和容错性?](#3. HDFS如何保证数据的高可用性和容错性?)
- [4. 什么是NameNode和DataNode?它们的区别是什么?](#4. 什么是NameNode和DataNode?它们的区别是什么?)
- [5. 解释MapReduce编程模型及其主要组成部分。](#5. 解释MapReduce编程模型及其主要组成部分。)
- [6. HDFS的读写流程是怎样的?](#6. HDFS的读写流程是怎样的?)
- [7. 什么是Secondary NameNode?它的作用是什么?](#7. 什么是Secondary NameNode?它的作用是什么?)
- [8. 如何处理NameNode的单点故障问题?](#8. 如何处理NameNode的单点故障问题?)
- [9. 什么是Hadoop的块(Block)?为什么要使用块?](#9. 什么是Hadoop的块(Block)?为什么要使用块?)
- [10. HDFS中的数据块大小可以配置吗?如果可以,如何配置?](#10. HDFS中的数据块大小可以配置吗?如果可以,如何配置?)
- [11. 什么是Apache Spark?它有哪些核心组件?](#11. 什么是Apache Spark?它有哪些核心组件?)
- [12. 什么是RDD(Resilient Distributed Dataset)?其特性有哪些?](#12. 什么是RDD(Resilient Distributed Dataset)?其特性有哪些?)
- [13. Spark的执行模型是怎样的?](#13. Spark的执行模型是怎样的?)
- [14. 解释Spark SQL和DataFrame的概念。](#14. 解释Spark SQL和DataFrame的概念。)
- [15. 什么是Spark Streaming?它是如何处理流数据的?](#15. 什么是Spark Streaming?它是如何处理流数据的?)
- [16. 什么是宽依赖和窄依赖?举例说明。](#16. 什么是宽依赖和窄依赖?举例说明。)
- [17. 什么是Spark的持久化(Persistence)机制?](#17. 什么是Spark的持久化(Persistence)机制?)
- [18. 解释Spark中的Shuffle操作及其优化方法。](#18. 解释Spark中的Shuffle操作及其优化方法。)
- [19. 什么是广播变量和累加器?它们的作用是什么?](#19. 什么是广播变量和累加器?它们的作用是什么?)
- [20. 如何在YARN上运行Spark应用程序?](#20. 如何在YARN上运行Spark应用程序?)
- [21. 什么是YARN?它的主要组件有哪些?](#21. 什么是YARN?它的主要组件有哪些?)
- [22. YARN的架构是怎样的?](#22. YARN的架构是怎样的?)
- [23. ResourceManager的主要功能是什么?](#23. ResourceManager的主要功能是什么?)
- [24. NodeManager的作用是什么?](#24. NodeManager的作用是什么?)
- [25. ApplicationMaster的职责是什么?](#25. ApplicationMaster的职责是什么?)
- [26. 什么是YARN的Container?其作用是什么?](#26. 什么是YARN的Container?其作用是什么?)
- [27. YARN的资源调度策略有哪些?](#27. YARN的资源调度策略有哪些?)
- [28. YARN如何进行资源管理和作业调度?](#28. YARN如何进行资源管理和作业调度?)
- [29. 如何在YARN上运行一个Hadoop作业?](#29. 如何在YARN上运行一个Hadoop作业?)
- [30. YARN如何处理应用程序的失败和容错?](#30. YARN如何处理应用程序的失败和容错?)
-
高频面试题及答案
1. 什么是Hadoop?它的核心组件有哪些?
回答:
Hadoop是一个用于存储和处理大规模数据集的开源框架。它的核心组件包括:
- HDFS(Hadoop Distributed File System): 用于分布式存储数据。
- MapReduce: 用于分布式数据处理的计算框架。
- YARN(Yet Another Resource Negotiator): 用于资源管理和作业调度。
2. 解释HDFS的架构及其工作原理。
回答:
HDFS是一个主从架构,由NameNode和DataNode组成:
- NameNode: 管理元数据,如文件名、块位置等。
- DataNode: 存储实际的数据块。
工作原理: - 数据存储: 文件被分割成块(默认128MB),每个块被复制到多个DataNode上(默认3个副本)。
- 数据读取: 客户端通过NameNode获取数据块的位置信息,然后直接从DataNode读取数据。
3. HDFS如何保证数据的高可用性和容错性?
回答:
HDFS通过数据块的复制机制来保证高可用性和容错性。每个数据块会被复制到多个(默认3个)不同的DataNode上,以确保即使某些节点发生故障,数据仍然可以从其他副本中获取。
4. 什么是NameNode和DataNode?它们的区别是什么?
回答:
- NameNode: 负责管理HDFS的元数据,包括文件目录结构、文件到块的映射以及每个块的副本位置。它是HDFS的单点故障。
- DataNode: 负责存储实际的数据块,并定期向NameNode报告其存储的块信息。
5. 解释MapReduce编程模型及其主要组成部分。
回答:
MapReduce是Hadoop的分布式计算模型,包括两个主要步骤:
- Map: 将输入数据分割成键值对,进行分布式处理,生成中间键值对。
- Reduce: 对中间键值对进行汇总处理,生成最终结果。
主要组成部分: - Mapper: 处理输入数据并生成中间键值对。
- Reducer: 处理中间键值对并生成最终结果。
- Combiner: 可选的本地化Reducer,用于减少网络传输量。
6. HDFS的读写流程是怎样的?
回答:
数据写入流程:
- 客户端请求NameNode创建文件。
- NameNode返回DataNode列表,用于存储数据块副本。
- 客户端将数据块分片并并行写入指定的DataNode。
- DataNode将数据块复制到其他副本节点。
数据读取流程:
- 客户端请求NameNode获取文件块的位置信息。
- NameNode返回存储该块的DataNode列表。
- 客户端并行读取各个DataNode上的数据块。
7. 什么是Secondary NameNode?它的作用是什么?
回答:
Secondary NameNode不是NameNode的备份节点,而是一个辅助节点,负责定期获取NameNode的元数据快照和编辑日志,将其合并以减少NameNode的启动时间和编辑日志的长度。
8. 如何处理NameNode的单点故障问题?
回答:
可以通过使用Hadoop 2.x引入的高可用性(HA)机制来处理NameNode的单点故障问题。HA架构下,有一个Active NameNode和一个Standby NameNode,Active NameNode故障时,Standby NameNode可以接管工作。
9. 什么是Hadoop的块(Block)?为什么要使用块?
回答:
块是HDFS中存储数据的基本单位,默认大小为128MB。使用块有以下好处:
- 大文件可以分块并行存储和处理,提升性能。
- 易于数据的复制和容错管理。
- 简化了存储空间管理。
10. HDFS中的数据块大小可以配置吗?如果可以,如何配置?
回答:
可以配置HDFS中的数据块大小。通过修改hdfs-site.xml
文件中的dfs.blocksize
属性来设置所需的块大小,例如:
xml
<property>
<name>dfs.blocksize</name>
<value>134217728</value> <!-- 128MB -->
</property>
11. 什么是Apache Spark?它有哪些核心组件?
回答:
Apache Spark是一个用于大数据处理的快速、通用的集群计算系统。其核心组件包括:
- Spark Core: 提供基本的任务调度、内存管理、错误恢复等功能。
- Spark SQL: 处理结构化数据的模块,支持SQL查询。
- Spark Streaming: 处理实时数据流的模块。
- MLlib: 机器学习库。
- GraphX: 图计算库。
12. 什么是RDD(Resilient Distributed Dataset)?其特性有哪些?
回答:
RDD是Spark的基本抽象,代表一个不可变的分布式数据集合。其主要特性包括:
- 容错性: 通过血统(lineage)记录生成RDD的操作序列,以在节点故障时重算丢失的数据。
- 分区性: 数据被分成多个分区,并行存储和处理。
- 惰性计算: 转换操作是惰性执行的,只有在行动操作触发时才会计算。
- 不可变性: 一旦创建后就不可修改,只能通过转换生成新的RDD。
13. Spark的执行模型是怎样的?
回答:
Spark的执行模型包括以下角色和步骤:
- Driver: 运行用户的main方法,负责任务的分配和调度。
- Executor: 在工作节点上运行,负责实际执行任务,并将结果返回给Driver。
- Job: 由行动操作触发的整个计算过程。
- Stage: Job分解成多个阶段,每个阶段由一系列并行的任务组成。
- Task: 最小的计算单元,一个任务对应RDD的一个分区。
14. 解释Spark SQL和DataFrame的概念。
回答:
Spark SQL是用于处理结构化数据的模块,支持SQL查询、数据框(DataFrame)和数据集(Dataset)。DataFrame是分布式的数据集,类似于传统数据库中的表,提供了更高级的API和优化功能,如列式存储、谓词下推等。
15. 什么是Spark Streaming?它是如何处理流数据的?
回答:
Spark Streaming用于处理实时数据流。其核心概念是DStream(Discretized Stream),将实时数据流分成一系列的小批次(micro-batches),每个批次作为RDD处理,从而将实时数据处理转化为一系列批处理操作。
16. 什么是宽依赖和窄依赖?举例说明。
回答:
- 窄依赖: 每个父RDD的分区最多被一个子RDD的分区使用。例如,
map
和filter
操作。 - 宽依赖: 每个父RDD的分区可能被多个子RDD的分区使用,需要进行Shuffle。例如,
groupByKey
和reduceByKey
操作。
17. 什么是Spark的持久化(Persistence)机制?
回答:
持久化机制用于将RDD存储在内存或磁盘中,以便重复使用。可以通过调用persist()
或cache()
方法实现。不同的存储级别包括:
- MEMORY_ONLY: 仅存储在内存中。
- MEMORY_AND_DISK: 内存不足时溢写到磁盘。
- DISK_ONLY: 仅存储在磁盘中。
18. 解释Spark中的Shuffle操作及其优化方法。
回答:
Shuffle是指将数据从一个节点移动到另一个节点的过程,通常发生在宽依赖操作中。Shuffle操作比较耗时,需要进行网络传输和磁盘IO。优化方法包括:
- 合适的分区策略: 使用
repartition
或coalesce
调整分区数。 - 预聚合: 使用
combineByKey
等操作减少Shuffle的数据量。 - 广播变量: 对较小的数据集使用广播变量,避免重复传输。
19. 什么是广播变量和累加器?它们的作用是什么?
回答:
- 广播变量: 用于在所有节点之间共享只读变量,避免每个任务都传输副本。
- 累加器: 用于在所有节点之间累加共享变量,例如计数器或求和操作。
20. 如何在YARN上运行Spark应用程序?
回答:
可以通过两种模式在YARN上运行Spark应用程序:
- Client模式: Driver在客户端本地运行。
- Cluster模式: Driver在YARN集群中运行。
提交作业时需要指定--master yarn
参数,例如:
shell
spark-submit --master yarn --deploy-mode cluster --class <main-class> <jar-file>
21. 什么是YARN?它的主要组件有哪些?
回答:
YARN(Yet Another Resource Negotiator)是Hadoop 2.0中引入的资源管理和作业调度框架。其主要组件包括:
- ResourceManager: 管理集群资源和调度应用程序。
- NodeManager: 管理每个节点上的资源,负责容器的启动、监控和报告。
- ApplicationMaster: 为每个应用程序(作业)管理其生命周期,包括任务的调度和执行。
- Container: 资源抽象单元,包含计算资源(CPU、内存)和任务的运行环境。
22. YARN的架构是怎样的?
回答:
YARN的架构是一个主从架构,包括以下角色:
- ResourceManager(主节点): 集中管理集群资源,负责资源的分配和调度。
- NodeManager(从节点): 运行在每个集群节点上,负责管理本地资源,执行和监控容器。
- ApplicationMaster(每个应用程序): 为单个应用程序管理资源申请和任务调度。
- Container: 资源分配单元,由NodeManager启动,用于运行任务。
23. ResourceManager的主要功能是什么?
回答:
ResourceManager的主要功能包括:
- 资源分配: 管理和分配集群中的计算资源(CPU、内存)。
- 作业调度: 根据调度策略分配资源给不同的应用程序。
- 监控和管理: 跟踪各个应用程序的资源使用情况和运行状态。
24. NodeManager的作用是什么?
回答:
NodeManager运行在每个集群节点上,其作用包括:
- 资源管理: 管理节点上的CPU、内存等资源。
- 容器管理: 启动、监控和终止容器。
- 资源汇报: 定期向ResourceManager报告节点的资源使用情况和容器状态。
25. ApplicationMaster的职责是什么?
回答:
ApplicationMaster是每个应用程序的专属进程,负责:
- 资源申请: 向ResourceManager申请资源。
- 任务调度: 将资源分配给具体的任务,并调度任务的执行。
- 容错管理: 监控任务执行情况,处理失败的任务并重新调度。
26. 什么是YARN的Container?其作用是什么?
回答:
Container是YARN中资源分配的基本单位,包括了指定数量的CPU和内存资源。Container由NodeManager管理,用于运行任务的执行环境。
27. YARN的资源调度策略有哪些?
回答:
YARN支持多种资源调度策略,常见的有:
- Capacity Scheduler: 通过队列配置实现资源的容量调度,适合多租户环境。
- Fair Scheduler: 按需分配资源,使得所有应用程序能公平地共享集群资源。
- FIFO Scheduler: 先来先服务,按作业提交顺序调度资源。
28. YARN如何进行资源管理和作业调度?
回答:
YARN通过ResourceManager进行集中资源管理和作业调度:
- 资源管理: ResourceManager接受NodeManager的资源报告,管理整个集群的资源池。
- 作业调度: ResourceManager根据调度策略将资源分配给不同的ApplicationMaster。ApplicationMaster再将资源分配给具体的任务,并提交给NodeManager执行。
29. 如何在YARN上运行一个Hadoop作业?
回答:
在YARN上运行一个Hadoop作业的步骤:
- 提交作业: 用户通过客户端提交作业到ResourceManager。
- 启动ApplicationMaster: ResourceManager分配资源并启动ApplicationMaster。
- 申请资源: ApplicationMaster向ResourceManager申请资源(容器)。
- 任务执行: ResourceManager分配容器,NodeManager启动容器并执行任务。
- 监控和完成: ApplicationMaster监控任务执行情况,所有任务完成后通知ResourceManager。
30. YARN如何处理应用程序的失败和容错?
回答:
YARN通过以下机制处理应用程序的失败和容错:
- 任务重试: ApplicationMaster监控任务执行情况,如果任务失败,可以重新调度和重试。
- ApplicationMaster容错: 如果ApplicationMaster失败,ResourceManager会重启一个新的ApplicationMaster,并从上次失败的状态继续执行。
- 节点容错: 如果某个NodeManager失败,其上运行的任务会重新调度到其他可用节点。
内容会不定期更新