【Hadoop】HDFS 分布式存储系统

Namenode是整个HDFS文件系统的前端,只有一个,管理数据块映射信息,配置副本策略,处理客户端的读写请求。

Secondary namenode是namenode的热备,当active namenode出现故障时,快速切换为新的active namenode。定期更新系统镜像和操作日志。

Datanode有多个,存储数据块,执行数据块读写。

HDFS client与文件系统进行交互。

文件被切分成数据块,分布存储,默认情况下每个块有三个副本。

HDFS不适合保存小文件。一个k和一个t数据块的元数据大小是相同的,元数据会存储在namenode,但namenode内存是有限的。大小文件的访问速度相同,存取大量小文件浪费很多寻道时间。

相关推荐
洛克大航海8 小时前
集群环境安装与部署 Hadoop
大数据·hadoop·ubuntu·集群部署 hadoop
沐浴露z12 小时前
一篇文章详解Kafka Broker
java·分布式·kafka
pythonpioneer13 小时前
Ray Tune 强大的分布式超参数调优框架
分布式·其他
笨蛋少年派14 小时前
Hadoop High Availability 简介
大数据·hadoop·分布式
一只小透明啊啊啊啊15 小时前
Java电商项目中的概念: 高并发、分布式、高可用、微服务、海量数据处理
java·分布式·微服务
兜兜风d'1 天前
RabbitMQ 七种工作模式全解析
分布式·rabbitmq
菜鸡儿齐1 天前
kafka高可靠性
分布式·kafka
兜兜风d'1 天前
RabbitMQ 持久性详解
spring boot·分布式·rabbitmq·1024程序员节
blammmp1 天前
RabbitMQ :概述,Web界面介绍,快速上手,工作模式
java·分布式·rabbitmq
Empty_7771 天前
Ceph分布式存储
分布式·ceph