Hadoop面试题 - 技术栈

Hadoop面试题---面试鸭

答：Hadoop的核心组件包括：HDFS（Hadoop分布式文件系统）、Yarn、MapReduce（分布式计算框架）以及Hadoop Common（通用工具库）

HDFS：提供了高吞吐量的数据访问能力，用于存储大数据集。

Yarn：负责资源管理和任务调度，确保各计算任务能够顺利执行。

MapReduce：处理和生成大数据集的编程模型，通过并行处理来提升计算效率。

Hadoop Common：提供了Hadoop其余组件所需的公用工具和库。

答：主要原因是为了处理海量的数据，分布式系统将数据和计算任务分割为小块，分配到多个机器上并行，从而大幅提升系统的可扩展性和容错能力。主要的优势有以下：

高扩展性：可以增加更多的机器节点来扩展存储和计算能力。

高容错性：通过数据冗余存储，即时一台机器发生故障，也能确保继续工作。

高吞吐量：Hadoop支持并行数据处理，能有效提升数据读写熟读和计算性能。

成本消息：可以使用廉价的机器搭建集群，减少硬件开支。

答：NameNode和DataNode之间主要是通过RPC（远程过程调用）机制实现。DataNode定期向NameNode发送心跳和块报告来报告它的存活状态和存储块状态。NameNode基于这些报告来维护文件系统的元数据，并告知DataNode应执行的操作。

心跳信息：默认3秒一次

块报告：默认周期是6小时一次

答：在Hadoop的架构中，JobTracker和TaskTracker是MapReduce的核心组件。

JobTracker：是运行在主节点上的服务，负责接受MapReduce作业（job）的请求，分割这些作业成任务（task），然后将这些任务分配给集群中的各个节点。JobTracker主要负责整个流程的协调和监控，包括资源管理、任务分配、任务失败的处理等等。

TaskTracker：它运行在从节点，负责JobTracker的调度，实际执行Map和Reduce任务，一旦任务完成，会向JobTracker发送状态汇报，在任务处理中，如果任务失败，TaskTacker还负责重新执行该任务。

答：一个Job是通过以下步骤提交和执行的：

答：Hadoop主要有三种调度器：FIFO调度器、公平调度器、容量调度器。

FIFO调度器：遵从先进先出的原则，按照作业提交的顺序进行处理，不考虑资源的公平性，只根据顺序来执行；
公平调度器：主要关注资源的公平分配，确保所有用户和作业都能获得合理的资源，通过划分池来进行资源分配，每个池中的优先级相同，保证资源的均衡使用；
容量调度器：允许多个组织共享一个集群，同时确保每个组织都能得到自己的资源配额，适用于多个部门或者团队共享同一个Hadoop集群，通过划分队列并为每个队列设定最大资源限制来实现资源隔离和分享。

答：Hadoop集群的扩展一般为增加数据节点（DataNode）。

答：Hadoop集群中节点失效（心跳机制确认是否失效）主要依赖HDFS和YARN，各自采取措施保证数据和计算任务的高可用。

HDFS：通过数据块的副本机制来处理，默认情况下，每个数据块都会存储在三个不同的节点当中，当一个节点失效时，HDFS会自动在其他健康的节点上复制数据块以保证数据的可用性。

YARN：通过任务重试和资源重新分配处理节点时效，当节点失效时，YARN ResourceManager会重新调度的在该节点上运行的任务，将任务分配给其他健康的节点保证计算任务继续进行。