【Hadoop】HDFS 分布式存储系统

Namenode是整个HDFS文件系统的前端,只有一个,管理数据块映射信息,配置副本策略,处理客户端的读写请求。

Secondary namenode是namenode的热备,当active namenode出现故障时,快速切换为新的active namenode。定期更新系统镜像和操作日志。

Datanode有多个,存储数据块,执行数据块读写。

HDFS client与文件系统进行交互。

文件被切分成数据块,分布存储,默认情况下每个块有三个副本。

HDFS不适合保存小文件。一个k和一个t数据块的元数据大小是相同的,元数据会存储在namenode,但namenode内存是有限的。大小文件的访问速度相同,存取大量小文件浪费很多寻道时间。

相关推荐
Miqiuha9 小时前
生成唯一id
分布式
AC赳赳老秦13 小时前
政务数据处理:DeepSeek 适配国产化环境的统计分析与报告生成
开发语言·hadoop·spring boot·postgresql·测试用例·政务·deepseek
左灯右行的爱情15 小时前
Kafka专辑- 整体架构
分布式·架构·kafka
是阿威啊17 小时前
【用户行为归因分析项目】- 【企业级项目开发第三站】模拟DIM层设备、应用数据加载到Hive
数据仓库·hive·hadoop
山上春17 小时前
Odoo 分布式单体与微服务模式深度对比研究报告
分布式·微服务·架构
左灯右行的爱情17 小时前
Kafka专辑 : 生产者写入路径
分布式·kafka·linq
java1234_小锋18 小时前
Zookeeper集群数据是如何同步的?
分布式·zookeeper·云原生
左灯右行的爱情19 小时前
Kafka专辑: 日志存储模型
分布式·kafka·linq
LB211219 小时前
Kafka笔记
分布式·kafka·linq
小鸡脚来咯19 小时前
Hive SQL与SQL不同处
hive·hadoop·sql