Hadoop不同版本的区别

免费springboot，vue，springcloudalibaba视频，有兴趣可以看看

html 复制代码

<!-- springboot，springboot整合redis，整合rocketmq视频： -->
https://www.bilibili.com/video/BV1nkmRYSErk/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- springcloudalibaba，openfeign，nacos，gateway，sso视频：-->
https://www.bilibili.com/video/BV1cFDEYWEkY/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- vue+springboot前后端分离视频：-->
https://www.bilibili.com/video/BV1JLSEYJETc/?vd_source=14d27ec13a4737c281b7c79463687112

<!-- shiro视频：-->
https://www.bilibili.com/video/BV1YVUmYJEPi/?vd_source=14d27ec13a4737c281b7c79463687112

Hadoop的不同版本之间存在一些显著的区别，以下是一些主要的版本差异：

Hadoop 1.x vs Hadoop 2.x

YARN的引入：Hadoop 2.0引入了YARN（Yet Another Resource Negotiator），将Hadoop从以MapReduce为中心的平台转变为更加多功能的数据处理平台。
容错机制：Hadoop 1.x主要通过复制来处理容错，而Hadoop 2.x可以通过Erasure编码处理容错。
存储方案：Hadoop 1.x使用3X副本方案，而Hadoop 2.x支持HDFS中的擦除编码，存储开销从200%降低到50%。
时间线服务：Hadoop 2.x使用具有可伸缩性问题的旧时间轴服务，而Hadoop 3.x改进了时间线服务v2，提高了时间线服务的可扩展性和可靠性。

Hadoop 2.x vs Hadoop 3.x

Java版本支持：Hadoop 2.x的最低Java支持版本是Java 7，而Hadoop 3.x的最低支持版本是Java 8。
数据平衡：Hadoop 2.x使用HDFS平衡器进行数据平衡，而Hadoop 3.x使用Intra-data节点平衡器。
文件系统支持：Hadoop 3.x扩展了对更多文件系统的支持，包括Microsoft Azure Data Lake文件系统。
Datanode资源：在Hadoop 3.x中，Datanode资源可以用于其他应用程序，类似于Hadoop 2.x。
MapReduce API兼容性：Hadoop 3.x保持了与Hadoop 1.x程序兼容的MR API，以便在Hadoop 3.x上执行。
支持操作系统：Hadoop 3.x进一步支持了Microsoft Windows。
单点故障（SPOF）：Hadoop 3.x具有SPOF的功能，Namenode失败后可以自动恢复，无需人工干预。
HDFS联盟：Hadoop 3.x支持多个NameNode用于多个Namespace，提高了系统的可扩展性。
YARN Timeline Service：Hadoop 3.x提供了新版本的YARN Timeline Service，提供了更加灵活和高效的应用程序历史记录和监控功能。
Hadoop Common包的升级：Hadoop 3.x中升级了Hadoop Common包，包括一些新的功能和改进，以提高系统的性能和可靠性。
流式数据处理改进：Hadoop 3.x中对流式数据处理功能进行了改进，包括对Apache Kafka和Apache Storm等流处理框架的更好支持。
支持更多的硬件和操作系统平台：Hadoop 3.x扩展了对更多硬件和操作系统平台的支持。
Shell脚本重构：Hadoop Shell脚本已被重写，以修复许多长期存在的错误并包括一些新功能。
MapReduce任务本地优化：MapReduce增加了对map输出收集器的本地执行的支持，对于shuffle密集型工作，这可以使性能提高30%或更多。
支持多个NameNode：Hadoop 3.x支持两个以上的NameNode，提高了群集的容错能力。
默认服务端口变更：Hadoop 3.x中多个服务的默认端口已被更改，减少了与其他应用程序的端口冲突问题。
DataNode内部负载均衡：Hadoop 3.x在DataNode内部添加了负载均衡功能，以优化数据存储和访问性能。
支持文件系统连接器：Hadoop 3.x提供了对多种文件系统的连接器支持，增强了Hadoop与外部存储系统的集成能力。

Hadoop 3.3.x vs Hadoop 3.4.0

DistCp内存使用优化：Hadoop 3.4.0中添加了-useiterator选项，使用listStatusIterator构建列表，减少客户端构建列表时的内存使用。
URI缓存：DFS客户端在创建socket地址时可以使用URI缓存，减少URI对象创建的频率。
自动密钥库重新加载：增加了自动重新加载密钥库的功能。
Quota初始化线程增加：NameNode启动过程中的默认Quota初始化线程数量从4增加到12。
默认字符集替换为UTF-8：所有默认字符集使用已被替换为UTF-8。

这些是Hadoop不同版本之间的主要区别，每个新版本都在性能、可靠性、兼容性和易用性方面进行了改进和增强。