Hadoop不同版本的区别

免费springboot,vue,springcloudalibaba视频,有兴趣可以看看

html 复制代码
<!-- springboot,springboot整合redis,整合rocketmq视频: -->
https://www.bilibili.com/video/BV1nkmRYSErk/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- springcloudalibaba,openfeign,nacos,gateway,sso视频:-->
https://www.bilibili.com/video/BV1cFDEYWEkY/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- vue+springboot前后端分离视频:-->
https://www.bilibili.com/video/BV1JLSEYJETc/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- shiro视频:-->
https://www.bilibili.com/video/BV1YVUmYJEPi/?vd_source=14d27ec13a4737c281b7c79463687112

Hadoop的不同版本之间存在一些显著的区别,以下是一些主要的版本差异:

Hadoop 1.x vs Hadoop 2.x

  1. YARN的引入:Hadoop 2.0引入了YARN(Yet Another Resource Negotiator),将Hadoop从以MapReduce为中心的平台转变为更加多功能的数据处理平台。
  2. 容错机制:Hadoop 1.x主要通过复制来处理容错,而Hadoop 2.x可以通过Erasure编码处理容错。
  3. 存储方案:Hadoop 1.x使用3X副本方案,而Hadoop 2.x支持HDFS中的擦除编码,存储开销从200%降低到50%。
  4. 时间线服务:Hadoop 2.x使用具有可伸缩性问题的旧时间轴服务,而Hadoop 3.x改进了时间线服务v2,提高了时间线服务的可扩展性和可靠性。

Hadoop 2.x vs Hadoop 3.x

  1. Java版本支持:Hadoop 2.x的最低Java支持版本是Java 7,而Hadoop 3.x的最低支持版本是Java 8。
  2. 数据平衡:Hadoop 2.x使用HDFS平衡器进行数据平衡,而Hadoop 3.x使用Intra-data节点平衡器。
  3. 文件系统支持:Hadoop 3.x扩展了对更多文件系统的支持,包括Microsoft Azure Data Lake文件系统。
  4. Datanode资源:在Hadoop 3.x中,Datanode资源可以用于其他应用程序,类似于Hadoop 2.x。
  5. MapReduce API兼容性:Hadoop 3.x保持了与Hadoop 1.x程序兼容的MR API,以便在Hadoop 3.x上执行。
  6. 支持操作系统:Hadoop 3.x进一步支持了Microsoft Windows。
  7. 单点故障(SPOF):Hadoop 3.x具有SPOF的功能,Namenode失败后可以自动恢复,无需人工干预。
  8. HDFS联盟:Hadoop 3.x支持多个NameNode用于多个Namespace,提高了系统的可扩展性。
  9. YARN Timeline Service:Hadoop 3.x提供了新版本的YARN Timeline Service,提供了更加灵活和高效的应用程序历史记录和监控功能。
  10. Hadoop Common包的升级:Hadoop 3.x中升级了Hadoop Common包,包括一些新的功能和改进,以提高系统的性能和可靠性。
  11. 流式数据处理改进:Hadoop 3.x中对流式数据处理功能进行了改进,包括对Apache Kafka和Apache Storm等流处理框架的更好支持。
  12. 支持更多的硬件和操作系统平台:Hadoop 3.x扩展了对更多硬件和操作系统平台的支持。
  13. Shell脚本重构:Hadoop Shell脚本已被重写,以修复许多长期存在的错误并包括一些新功能。
  14. MapReduce任务本地优化:MapReduce增加了对map输出收集器的本地执行的支持,对于shuffle密集型工作,这可以使性能提高30%或更多。
  15. 支持多个NameNode:Hadoop 3.x支持两个以上的NameNode,提高了群集的容错能力。
  16. 默认服务端口变更:Hadoop 3.x中多个服务的默认端口已被更改,减少了与其他应用程序的端口冲突问题。
  17. DataNode内部负载均衡:Hadoop 3.x在DataNode内部添加了负载均衡功能,以优化数据存储和访问性能。
  18. 支持文件系统连接器:Hadoop 3.x提供了对多种文件系统的连接器支持,增强了Hadoop与外部存储系统的集成能力。

Hadoop 3.3.x vs Hadoop 3.4.0

  1. DistCp内存使用优化:Hadoop 3.4.0中添加了-useiterator选项,使用listStatusIterator构建列表,减少客户端构建列表时的内存使用。
  2. URI缓存:DFS客户端在创建socket地址时可以使用URI缓存,减少URI对象创建的频率。
  3. 自动密钥库重新加载:增加了自动重新加载密钥库的功能。
  4. Quota初始化线程增加:NameNode启动过程中的默认Quota初始化线程数量从4增加到12。
  5. 默认字符集替换为UTF-8:所有默认字符集使用已被替换为UTF-8。

这些是Hadoop不同版本之间的主要区别,每个新版本都在性能、可靠性、兼容性和易用性方面进行了改进和增强。

相关推荐
SelectDB22 分钟前
Apache Doris Python UDF:让 SQL 直接调用 Python 生态,支撑 Agent 时代复杂业务逻辑
大数据·数据库·python
ApacheSeaTunnel3 小时前
当多表数据涌入,Apache SeaTunnel 如何巧妙化解主键冲突?
大数据·开源·数据集成·seatunnel·技术分享·数据同步
大大大大晴天3 天前
Hudi Metadata Table 与 Hive Sync (HMS)怎么选?
大数据
手可摘星辰7773 天前
一次线上FlinkCDC异常排查复盘
大数据·flink
大大大大晴天3 天前
Hudi技术内幕:Metadata Table原理与实践
大数据
大大大大晴天4 天前
Hudi技术内幕:深入解析Index索引机制
大数据
阿里云大数据AI技术4 天前
Flink Forward Asia 2026 深圳启幕:Agentic Streaming for AI,开启实时智能新范式
大数据·flink
SelectDB5 天前
阶跃星辰基于 SelectDB 构建 PB 级 Agent 可观测平台
大数据·数据库·aigc
大大大大晴天8 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
SelectDB9 天前
秒级弹性、最高降本 70%:SelectDB Serverless 如何重塑云数仓资源效率
大数据·后端·云原生