【Hadoop】HDFS 分布式存储系统

Namenode是整个HDFS文件系统的前端,只有一个,管理数据块映射信息,配置副本策略,处理客户端的读写请求。

Secondary namenode是namenode的热备,当active namenode出现故障时,快速切换为新的active namenode。定期更新系统镜像和操作日志。

Datanode有多个,存储数据块,执行数据块读写。

HDFS client与文件系统进行交互。

文件被切分成数据块,分布存储,默认情况下每个块有三个副本。

HDFS不适合保存小文件。一个k和一个t数据块的元数据大小是相同的,元数据会存储在namenode,但namenode内存是有限的。大小文件的访问速度相同,存取大量小文件浪费很多寻道时间。

相关推荐
IT毕设梦工厂3 小时前
大数据毕业设计选题推荐-基于大数据的丙型肝炎患者数据可视化分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·spark·毕业设计·源码·bigdata
随心............4 小时前
Spark面试题
大数据·分布式·spark
Hello.Reader7 小时前
用一根“数据中枢神经”串起业务从事件流到 Apache Kafka
分布式·kafka·apache
IT毕设梦工厂8 小时前
大数据毕业设计选题推荐-基于大数据的超市销售数据统计分析系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
Lx3529 小时前
Hadoop数据本地性优化:减少网络传输的实战经验
大数据·hadoop
找不到、了10 小时前
常用的分布式ID设计方案
java·分布式
IT研究室13 小时前
大数据毕业设计选题推荐-基于大数据的餐饮服务许可证数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
AKAMAI1 天前
在分布式计算区域中通过VPC搭建私有网络
人工智能·分布式·云计算
myself1 天前
Hadoop中的MapReduce学习 - Mapper和shuffle阶段
hadoop