Hadoop -- 分布式文件系统

1、分布式文件系统的思想:文件切分的思想(分而治之)

当文件存储在磁盘中,不仅效率比较低,并且文件的大小可能会超出单机的存储的范围。

所以分而治之的思想就是:

不管文件有多大,所有的文件都是由字节数组构成,当想要切分文件的时候,就是将一个字节数组切分成多份,当需要使用这份数据的时候,就可以根据偏移量将字节数据拼接在一起,此时数据又可以继续使用。

2、Block的拆分标准:

1、block是磁盘进行数据读/写的最小单元,数据被切分后的一个整体叫做块。在Hadoop1.0的版本中,默认的大小是64M,在Hadoop2.0以及后面的版本中,默认的大小是128M,这样的目的是达到最小的寻址开销。

2、在同一文件中,每一个block的大小是基本一致的,除了最后节点之外。然么对于不同的文件的block的大小是可以不一样的,不同的文件的大小可以设置成不同数量的block数量。

3、数据块的个数=Ceil(文件大小/每个块的大小)

3、对于block需要等大的原因:

1、可以达到最小的寻址的开销。

2、可以再计算的时候降低计算的复杂度。

3、可以通过偏移量来确定block的位置,并来拉取数据。

4、对于相同的文件block因该是等大的。

5、对于拉去的时间会基本一致。

注意事项

a. 只要有任意一个块丢失,整个数据文件被损坏

​ b. HDFS中一旦文件被存储,数据不允许被修改 ​ 修改会影响偏移量,修改会导致数据倾斜(单节点数据量过多),修改数据会导致蝴蝶效应 ​

c. 但是可以被追加(一般不推荐) ​ 追加设置需要手动打开 ​

d. 一般HDFS存储的都是历史数据.所以将来Map Reduce都用来进行离线数据的处理 ​

f. 块的大小一旦文件上传之后就不允许被修改 128M-512M

4、block保证数据的安全:

a. 只要有任意一个块丢失,整个数据文件被损坏 ​

b. 肯定要对存储数据做备份 ​

c. HDFS是直接对原始数据进行备份的,这样能保证恢复效率和读取效率 ​

d. 备份的数据肯定不能存放在一个节点上,使用数据的时候可以就近获取数据 ​

f. 备份的数量要小于等于节点的数量

g. 每个数据块默认会有三个副本,相同副本是不会存放在同一个节点上 ​

h. 副本的数量可以变更 ​ 可能近期数据被分析的可能性很大,副本数可以多设置几个 ​ 后期数据很少被分析,可以减少副本数

相关推荐
2401_883041081 小时前
新锐品牌电商代运营公司都有哪些?
大数据·人工智能
青云交1 小时前
大数据新视界 -- 大数据大厂之 Impala 性能优化:融合机器学习的未来之路(上 (2-1))(11/30)
大数据·计算资源·应用案例·数据交互·impala 性能优化·机器学习融合·行业拓展
Json_181790144804 小时前
An In-depth Look into the 1688 Product Details Data API Interface
大数据·json
WX187021128735 小时前
在分布式光伏电站如何进行电能质量的治理?
分布式
Qspace丨轻空间6 小时前
气膜场馆:推动体育文化旅游创新发展的关键力量—轻空间
大数据·人工智能·安全·生活·娱乐
Elastic 中国社区官方博客7 小时前
如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分:Elastic S3 连接器
大数据·elasticsearch·搜索引擎·云计算·全文检索·可用性测试·aws
Aloudata8 小时前
从Apache Atlas到Aloudata BIG,数据血缘解析有何改变?
大数据·apache·数据血缘·主动元数据·数据链路
不能再留遗憾了8 小时前
RabbitMQ 高级特性——消息分发
分布式·rabbitmq·ruby
水豚AI课代表8 小时前
分析报告、调研报告、工作方案等的提示词
大数据·人工智能·学习·chatgpt·aigc
茶馆大橘8 小时前
微服务系列六:分布式事务与seata
分布式·docker·微服务·nacos·seata·springcloud