【Hadoop】HDFS 分布式存储系统

Namenode是整个HDFS文件系统的前端,只有一个,管理数据块映射信息,配置副本策略,处理客户端的读写请求。

Secondary namenode是namenode的热备,当active namenode出现故障时,快速切换为新的active namenode。定期更新系统镜像和操作日志。

Datanode有多个,存储数据块,执行数据块读写。

HDFS client与文件系统进行交互。

文件被切分成数据块,分布存储,默认情况下每个块有三个副本。

HDFS不适合保存小文件。一个k和一个t数据块的元数据大小是相同的,元数据会存储在namenode,但namenode内存是有限的。大小文件的访问速度相同,存取大量小文件浪费很多寻道时间。

相关推荐
王莽v216 小时前
序列并行-负载均衡
人工智能·分布式
optimistic_chen16 小时前
【Redis系列】分布式锁
linux·数据库·redis·分布式·缓存
weixin_4624462318 小时前
Hive 4.0.1 自动安装脚本详解:一键部署 + 环境变量配置(适用于 Linux)
linux·hive·hadoop
王莽v219 小时前
FlashAttention 学习笔记:从公式到分布式
人工智能·分布式
王莽v219 小时前
LLM 分布式推理:切分、通信与优化
人工智能·分布式
SJLoveIT19 小时前
【深度复盘】Redis 分布式锁:从 SETNX 到 Redisson 看门狗的架构权衡
redis·分布式·架构
【赫兹威客】浩哥19 小时前
【赫兹威客】完全分布式Flink测试教程
大数据·分布式·flink
予枫的编程笔记20 小时前
【Redis实战进阶篇1】Redis 分布式锁:从手写实现到 Redisson 最佳实践
redis·分布式·wpf
瑶山20 小时前
Spring Cloud微服务搭建二、分布式定时任务Quartz+MySQL接入
分布式·mysql·spring cloud·微服务·quartz
小北方城市网20 小时前
Spring Cloud Gateway 生产问题排查与性能调优全攻略
redis·分布式·缓存·性能优化·mybatis