Hadoop区别

.Rw2025-05-16 16:48

Hadoop

• 定义

• Hadoop是一个由Apache基金会开发的分布式计算平台。它主要包括HDFS（Hadoop Distributed File System）和MapReduce编程模型。HDFS用于存储大规模数据，它将文件分割成多个数据块（block），并将这些数据块存储在多个节点上，以实现数据的高可靠性和高吞吐量访问。MapReduce是一种并行编程模型，用于处理大规模数据集。它将任务分解为Map（映射）和Reduce（归并）两个阶段，Map任务负责处理输入的键值对并生成中间结果，Reduce任务对中间结果进行归并操作，最终得到最终结果。

• 特点

• 高可靠性：通过在多个节点上存储数据块的副本（默认是3个副本），即使部分节点出现故障，数据也不会丢失。例如，当一个存储数据块的节点发生故障时，系统可以从其他存储该数据块副本的节点读取数据。