大数据面试题每日练习-- Hadoop是什么？

十二点的泡面2024-11-24 21:18

Hadoop是一个开源框架，用于存储和处理大型数据集。它主要由以下几个组件构成：

HDFS（Hadoop Distributed File System）：分布式文件系统，用于存储大规模数据。HDFS将文件分割成块（默认大小为128MB），并将这些块分布在网络上的多个节点上存储，以实现高可用性和容错性。
MapReduce：一种编程模型，用于处理和生成大规模数据集。MapReduce将任务分为两个阶段：Map阶段负责过滤和排序数据，Reduce阶段负责汇总Map阶段的结果。
YARN（Yet Another Resource Negotiator）：资源管理框架，负责集群资源管理和调度。YARN允许多个计算框架共享同一个集群资源。