Hadoop 版本进化论:从 1.0 到 2.0,架构革命全解析

Hadoop版本

hadoop1.x版本

由三部分组成

  • Common(辅助工具)
  • HDFS(数据存储)
  • MapReduce(计算和资源调度)

存在的问题

  • JobTracker同时具备了资源管理和作业控制两个功能,成为了系统的最大瓶颈
  • 采用了master/slave结构,master存在单点问题,一旦master出现故障,会导致整个集群不可用
  • 采用了基于槽位的资源分配模型,将槽位分为了Map slot和Reduce slot两种,且不允许它们之间共享,导致一种槽位资源紧张和另一种闲置的情况

hadoop2.x版本

由四部分组成

  • Common(辅助工具)
  • HDFS(数据存储)
  • Yarn(资源调度)
  • MapReduce(计算)

yarn的出现就是为了将JobTracker的功能进行拆分为两个服务:一个全局的资源管理器ResourceManager和每个程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,ApplicationMaster负责单个应用程序的管理

参考文献

相关推荐
知了一笑1 分钟前
独立开发第二周:构建、执行、规划
java·前端·后端
寻月隐君7 分钟前
想用 Rust 开发游戏?这份超详细的入门教程请收好!
后端·rust·github
晴空月明20 分钟前
分布式系统高可用性设计 - 缓存策略与数据同步机制
后端
UI前端开发工作室39 分钟前
数字孪生技术为UI前端提供新视角:产品性能的实时模拟与预测
大数据·前端
Real_man1 小时前
新物种与新法则:AI重塑开发与产品未来
前端·后端·面试
小马爱打代码2 小时前
Spring Boot:将应用部署到Kubernetes的完整指南
spring boot·后端·kubernetes
卜锦元2 小时前
Go中使用wire进行统一依赖注入管理
开发语言·后端·golang
bxlj_jcj2 小时前
Flink DataStream API详解(二)
大数据·flink
涛思数据(TDengine)3 小时前
时序数据库 TDengine × SSRS:专为工业、能源场景打造的报表解决方案
大数据·数据库·物联网·时序数据库·tdengine
isNotNullX3 小时前
实时数仓和离线数仓还分不清楚?看完就懂了
大数据·数据库·数据仓库·人工智能·数据分析