Hadoop 版本进化论:从 1.0 到 2.0,架构革命全解析

Hadoop版本

hadoop1.x版本

由三部分组成

  • Common(辅助工具)
  • HDFS(数据存储)
  • MapReduce(计算和资源调度)

存在的问题

  • JobTracker同时具备了资源管理和作业控制两个功能,成为了系统的最大瓶颈
  • 采用了master/slave结构,master存在单点问题,一旦master出现故障,会导致整个集群不可用
  • 采用了基于槽位的资源分配模型,将槽位分为了Map slot和Reduce slot两种,且不允许它们之间共享,导致一种槽位资源紧张和另一种闲置的情况

hadoop2.x版本

由四部分组成

  • Common(辅助工具)
  • HDFS(数据存储)
  • Yarn(资源调度)
  • MapReduce(计算)

yarn的出现就是为了将JobTracker的功能进行拆分为两个服务:一个全局的资源管理器ResourceManager和每个程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,ApplicationMaster负责单个应用程序的管理

参考文献

相关推荐
uzong20 分钟前
最新:阿里正式发布首款AI开发工具Meoo(秒悟),0门槛、一键部署上线
人工智能·后端
用户83562907805124 分钟前
Python 操作 PowerPoint:添加与设置文本框完整教程
后端·python
HuaidongLi24 分钟前
三级缓存与循环依赖
后端
hughnz30 分钟前
钻井RTOC的能力以及趋势
大数据·人工智能
tongxh42331 分钟前
Spring Boot 3.X:Unable to connect to Redis错误记录
spring boot·redis·后端
回家路上绕了弯31 分钟前
Claude Superpower 全攻略:解锁 AI 自动开发模式,告别盲目编码
后端
workflower1 小时前
机器人应用-楼宇室内巡逻
大数据·人工智能·算法·microsoft·机器人·动态规划·享元模式
电子科技圈1 小时前
从进迭时空K3看RISC-V CPU与Imagination GPU协同:如何构建高性能SoC能力
大数据·图像处理·人工智能·嵌入式硬件·边缘计算·智能硬件·risc-v
kree1 小时前
Flowable 深度解析:现代企业级工作流引擎的核心与实践
后端
阿里云大数据AI技术1 小时前
EMR Serverless Spark 推出 Spark 4.0,加速湖仓架构下的数据处理升级
大数据·人工智能·spark