01-Hadoop 核心三剑客通俗指南：从“单机搬砖”到“包工队”

01-Hadoop 核心三剑客通俗指南：从"单机搬砖"到"包工队"

在普通电脑上，我们处理数据就像是一个人在单干。比如你要统计一本 1000 页书里有多少个"爱"字，你可以自己一页页翻。

但如果是 100 亿页 的书呢？一个人干到死也干不完。这时不仅需要把书撕开存放在不同的房间里，还需要雇很多人同时去数。

Hadoop 就是这套分布式 存储和计算系统的"包工头"。它主要由三个核心组件组成，我们可以把它们看作一个超大型的数据处理工厂。

痛点：硬盘再大也有上限，而且硬盘坏了数据就丢了。
HDFS 方案 ：
- 切块 (Block)：把那个 100T 的大文件，切成无数个 128MB 的小块。
- 分散存储 ：把这些小块随机扔到成千上万台普通的服务器（DataNode）里。
- 冗余备份 (Replication) ：为了防丢，默认每个小块存 3 份。坏了一台机器？没事，其他机器上还有备份。
- NameNode (仓库管理员)：有一台特殊的机器负责记账："文件 A 的第 1 块在机器 X 上，第 2 块在机器 Y 上"。你找数据得先问它。

一句话总结 ：HDFS 让一堆廉价的普通硬盘组合成了一个超级巨大、永不丢失的硬盘。

一句话总结 ：既然数据搬不动，就把计算程序派过去算好再回来。

痛点：这个工厂里既有 MapReduce 在干活，后来又来了 Spark、Flink 等其他工种。大家都抢 CPU 和内存，乱套了。
YARN 方案 ：它不管具体怎么算，只管分资源 。
- MapReduce 任务来了，找 YARN 申请："我要 100 个 CPU 核，500G 内存"。
- YARN 看了看工厂现状："行，批准，你去 1-10 号机器上跑吧"。
- Spark 任务来了，YARN 说："现在没空位了，你排队"。

一句话总结 ：YARN 是大管家，统一分配每台机器的算力资源，防止工种打架。

Hadoop 的核心思想就是：分而治之。