【Hadoop】HDFS 分布式存储系统

Namenode是整个HDFS文件系统的前端,只有一个,管理数据块映射信息,配置副本策略,处理客户端的读写请求。

Secondary namenode是namenode的热备,当active namenode出现故障时,快速切换为新的active namenode。定期更新系统镜像和操作日志。

Datanode有多个,存储数据块,执行数据块读写。

HDFS client与文件系统进行交互。

文件被切分成数据块,分布存储,默认情况下每个块有三个副本。

HDFS不适合保存小文件。一个k和一个t数据块的元数据大小是相同的,元数据会存储在namenode,但namenode内存是有限的。大小文件的访问速度相同,存取大量小文件浪费很多寻道时间。

相关推荐
IT毕设梦工厂1 天前
大数据毕业设计选题推荐-基于大数据的人口普查收入数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
计算机源码社1 天前
基于Hadoop的车辆二氧化碳排放量分析与可视化系统|基于Spark的车辆排放量实时监控与预测系统|基于数据挖掘的汽车排放源识别与减排策略系统
大数据·hadoop·机器学习·数据挖掘·spark·毕业设计·课程设计
程序猿John1 天前
RabbitMQ概念 与 工作原理
分布式·rabbitmq
Hello.Reader1 天前
在运行中的 Kafka 集群渐进式启用安全零停机实战手册(KRaft/Broker 通用)
分布式·安全·kafka
飘飞雪1 天前
深入浅出kafka:kafka演进以及核心功能介绍
数据库·分布式·kafka
励志成为糕手2 天前
Spark Shuffle:分布式计算的数据重分布艺术
大数据·分布式·spark·性能调优·数据倾斜
三口吃掉你2 天前
Git分布式版本控制工具
分布式·git
yunmi_2 天前
分布式文件存储系统FastDFS(入门)
java·分布式·maven·fastdfs
海梨花2 天前
【从零开始学习RabbitMQ】
分布式·学习·rabbitmq
失散132 天前
分布式专题——26 BIO、NIO编程与直接内存、零拷贝深入辨析
java·分布式·rpc·架构·nio·零拷贝