Hadoop3:HDFS存储优化之小文件归档

一、情景说明

我们知道,NameNode存储一个文件元数据,默认是150byte大小的内存空间。

那么,如果出现很多的小文件,就会导致NameNode的内存占用。

但注意,存储小文件所需要的磁盘容量和数据块的大小无关。

例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB

二、解决方案

HDFS存档文件或HAR文件来优化这个问题

具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNode而言却是一个整体,减少了NameNode的内存。

它的底层,其实是一个MR程序。

你可以简单理解为,它就是一个压缩程序。

三、案例

将/input目录下的文件归档成input.har文件,并存于根目录。

归档文件

bash 复制代码
hadoop archive -archiveName input.har -p /input /output

查看归档文件内容

bash 复制代码
hadoop fs -ls /output/input.har
hadoop fs -ls har:///output/input.har

解压归档文件中所有文件

bash 复制代码
hadoop fs -cp har:///output/input.har/*    /

解压归档文件中一个文件

bash 复制代码
hadoop fs -cp har:///output/input.har/hello.txt /

相关推荐
墨神谕21 分钟前
ES为什么要进行分片
大数据·elasticsearch·搜索引擎
赵谨言1 小时前
地球磁场干扰噪声减弱声波对抗测量系统研究进展:近十年中英文文献综述
大数据·开发语言·经验分享
zhongqimeng1 小时前
中国商业联合会召开《城郊大仓基地冷库应急保障能力要求》《城郊大仓基地高效配送服务指南》团体标准审查会
大数据
ggabb1 小时前
中文:承载文明,引领未来
大数据·人工智能
尽兴-1 小时前
ElasticSearch 搜索相关性详解(含评分机制+自定义策略+多字段优化)
大数据·elasticsearch·搜索引擎·相关性·评分机制·自定义策略·多字段优化
wanhengidc1 小时前
跨境云手机适用于哪些场景
大数据·运维·服务器·数据库·科技·智能手机
木梯子1 小时前
大数据+AI+人|扑兔AI打造企业智慧经营,落地全域获客
大数据·人工智能·数据挖掘
金融小师妹1 小时前
基于AI多因子与流动性模型的黄金再定价分析:4500关口修复后的“黄金坑”是否成立?
大数据·svn·能源
Julia | 品牌营销观察员2 小时前
抖音小红书竞品分析用什么软件?2026 实测好用
大数据·人工智能·竞品分析·竞对监测·竞品动态监测
RFID舜识物联网2 小时前
RFID耐高温标签在汽车喷涂工艺中的创新应用
大数据·人工智能·科技·嵌入式硬件·物联网·汽车