什么是Hadoop - 技术栈

Hadoop 是 Apache 基金会开发的开源分布式系统基础架构 ，专为PB 级乃至 EB 级海量数据的存储与处理设计，通过集群化普通硬件实现高可靠、高扩展、低成本的大数据解决方案，是大数据技术领域的基石。

一、起源与发展

时间	里程碑
2002 年	Doug Cutting 和 Mike Cafarella 发起 Nutch 开源网页爬虫项目
2003-2004 年	Google 发表 GFS 和 MapReduce 论文，为 Hadoop 提供核心思想
2006 年	Hadoop 从 Nutch 分离，成为独立项目；Apache Hadoop 0.1.0 发布
2013 年	Hadoop 2.0 发布，引入 YARN 资源管理器，支持多种计算框架
2017 年	Hadoop 3.0 发布，引入纠删码、多 Namenode 等重大改进
2024 年	Hadoop 3.4.0 发布，包含 2888 个错误修复与增强

二、核心组件详解（Hadoop 3.x）

Hadoop 核心由三大组件构成，形成 "存储 - 计算 - 资源管理" 的完整闭环：

1. HDFS（Hadoop 分布式文件系统）

核心定位：分布式存储基石，解决海量数据的可靠存储问题
架构设计 ：主从架构（Master/Slave）
- NameNode：主节点，管理文件系统命名空间、元数据、数据块映射关系，是集群的 "大脑"
- DataNode：从节点，负责实际存储数据块（默认 128MB），执行读写操作
- SecondaryNameNode：辅助节点，定期合并编辑日志，备份元数据，非 NameNode 的热备
核心特性 ：
- 数据多副本存储（默认 3 份），自动容错，硬件故障视为常态
- 支持纠删码（Erasure Coding），将存储开销从 300% 降至约 125%
- 一次写入、多次读取（WORM），适合批量数据处理，不适合随机写入
- 数据本地性优化，计算任务尽量在数据存储节点执行，减少网络传输

2. YARN（Yet Another Resource Negotiator）

核心定位：集群资源管理与任务调度系统，Hadoop 2.0 核心改进
架构设计 ：
- ResourceManager（RM）：全局资源管理器，负责集群资源分配与调度决策
- NodeManager（NM）：节点资源管理器，管理单节点资源，监控容器运行状态
- ApplicationMaster（AM）：每个应用的专属管理器，负责申请资源、调度任务执行
核心功能 ：
- 支持多种计算框架（MapReduce、Spark、Flink 等），实现 "一个集群，多种负载"
- 基于容器的资源隔离，支持内存、CPU、磁盘 IO 的精细化管理
- 动态资源调整，支持 Container Resizing
- 多租户管理，资源队列与权限控制

3. MapReduce

核心定位：分布式计算框架，采用 "分而治之" 思想处理海量数据
编程模型 ：
- Map 阶段：将输入数据分片，并行处理每个分片，输出键值对形式的中间结果
- Shuffle 阶段：对中间结果进行排序、分组，为 Reduce 阶段做准备
- Reduce 阶段：对中间结果汇总计算，得到最终输出
执行流程 ：
1. 客户端提交作业到 ResourceManager
2. RM 分配第一个 Container 启动 AM
3. AM 申请资源，调度 Map/Reduce 任务到 DataNode 执行
4. 任务执行过程中实时汇报状态，失败自动重试

三、Hadoop 生态系统

Hadoop 生态系统丰富，覆盖数据存储、计算、查询、管理等全流程：

组件	功能
HBase	分布式列式数据库，支持实时随机读写，适合非结构化 / 半结构化数据
Hive	数据仓库工具，提供类 SQL 查询接口（HQL），将查询转换为 MapReduce 任务
Pig	数据流处理工具，提供 Pig Latin 脚本语言，简化 MapReduce 编程
ZooKeeper	分布式协调服务，提供统一命名、配置管理、分布式锁等功能
Sqoop	数据迁移工具，实现 Hadoop 与关系型数据库（MySQL、Oracle）间的数据传输
Flume	日志收集工具，高效收集、聚合、传输海量日志数据
Oozie	工作流调度工具，管理 Hadoop 作业的依赖与执行顺序
Spark/Flink	快速计算引擎，提供比 MapReduce 更高效的批处理与流处理能力

四、核心特性

高可靠性：通过数据多副本和任务自动重试，容忍硬件故障，无需昂贵的高可用硬件
高扩展性：支持横向扩展至数千节点，存储与计算能力随节点数量线性增长
低成本：基于普通商用硬件构建，无需专用高端服务器，大幅降低基础设施成本
高吞吐量：优化批量数据处理，牺牲低延迟换取高吞吐量，适合离线数据分析
易于编程：提供简单的编程模型（Map/Reduce），开发者无需关注分布式底层细节
跨平台：基于 Java 开发，支持 Linux、Windows 等主流操作系统

五、典型应用场景

数据仓库与 ETL：存储企业全量数据，进行清洗、转换、加载，支持决策分析
日志分析：处理服务器、应用、用户行为等海量日志，如用户行为分析、系统监控
机器学习：存储训练数据，执行大规模机器学习算法（如推荐系统、图像识别）
搜索引擎：构建大规模索引，支持网页搜索、商品搜索等应用
大数据挖掘：挖掘用户行为模式、市场趋势、风险预警等商业价值
科学计算：处理天文、气象、基因测序等领域的 PB 级科研数据

六、优劣势分析

优势	劣势
适合 PB 级海量数据存储与处理	不适合低延迟实时查询（延迟通常分钟级）
硬件故障自动处理，高可靠性	不适合频繁随机写入操作
横向扩展能力强，成本可控	MapReduce 编程模型相对复杂，开发效率低
生态系统成熟，组件丰富	资源管理与调度复杂，运维成本高
支持多种数据类型与计算框架	小数据集处理效率低，资源开销大

七、Hadoop 3.x 关键改进

HDFS 纠删码：替代部分副本，降低存储成本约 75%
多 NameNode 支持：实现 NameNode 高可用，避免单点故障
YARN 增强：支持 cgroup 隔离、容器动态调整、多集群联邦
MapReduce 优化：Native Task 性能提升，支持 GPU 加速
JDK 兼容升级：支持 JDK 8+，提升性能与安全性
存储多样性：支持 S3、Azure Blob 等云存储，增强云原生适配能力

八、未来发展趋势

云原生融合：与 Kubernetes 等容器编排系统深度集成，提升资源利用率与弹性扩展能力
计算引擎多元化：MapReduce 逐步被 Spark、Flink 等更高效引擎替代，Hadoop 作为存储与资源管理平台持续发挥价值
AI/ML 集成：更好支持机器学习框架，提供数据存储与计算的统一平台
安全增强：强化数据加密、访问控制、审计追踪，满足合规要求
边缘计算适配：支持边缘节点数据预处理，减少中心集群压力

九、总结

Hadoop 作为大数据技术的奠基性框架，通过 "普通硬件集群化 + 分布式存储 + 分布式计算 " 的核心思想，彻底改变了海量数据处理的成本与效率。尽管面临 Spark 等新兴技术的挑战，Hadoop 凭借成熟的生态系统和稳定的核心能力，仍是企业构建大数据平台的首选基础架构之一，尤其在离线批量数据处理 和数据仓库场景中占据不可替代的地位。