hadoop hdfs优势和缺点

hdfs优点

  1. 高容错性
  2. 适合处理大数据
  3. 可构建再廉价的机器上

hdfs缺点

  1. 不适合做低延迟数据访问
  • 毫秒级的存储数据做不到
  1. 无法高效的对大量小文件进行存储
  2. 不支持并发写入 文件随机修改
  • 一个文件只能有一个writer 不允许多个线程同时写
  • 仅支持数据追加 不支持文件的随机修改

hdfs组织结构

namenode 就是master 他是一个主管 管理者
  1. 管理hdfs的名称空间
  2. 配置副本策略
  3. 管理数据块映射信息
  4. 处理客户端读写请求
datanode 就是slave namenode下达命令 datanode执行实际的存储
  1. 存储实际的数据块
  2. 执行数据块的读写操作
client 就是客户端
  1. 文件切分 文件上传hdfs的时候 client讲文件切分成一个一个的block 然后进行上传
  2. 与namenode交互 获取文件的位置信息
  3. 与datanode交互 读取或者写入数据
  4. client 提供一些命令来管理hdfs
  5. cleint 可以通过一些命令来访问hdfs
secondary namenode 并非namenode 热备 当name挂掉的时候 他并不能马上替换namenode 并提供服务
  1. 辅助namenode 分担工作量
  2. 紧急情况 可辅助恢复namenode
hdfs 文件块大小
  1. hdfs的文件在物理上是分块存储 块的大小可以通过配置参数来规定 dfs.blocksize 默认大小在hadoop 128m
  2. 如果寻址时间约为10ms, 即查找到目标block的时间为 10ms。
  3. 寻址时间为传输时间的1% 时,则为最佳状态。(专家) 因此,传输时间 =10ms/0.01=1000ms=1s
  4. 而目前磁盘的传输速率普 遍为100MB/s。
相关推荐
风落无尘1 小时前
《智能重生:从垃圾堆到AI工程师》——第二章 概率与生存
大数据·人工智能
档案宝档案管理1 小时前
无缝对接财务软件,实现会计档案全流程自动化流转
大数据
juniperhan2 小时前
Flink 系列第21篇:Flink SQL 函数与 UDF 全解读:类型推导、开发要点与 Module 扩展
java·大数据·数据仓库·分布式·sql·flink
科研前沿2 小时前
2026 数字孪生前沿科技:全景迭代报告 —— 镜像视界生成式孪生(Generative DT)技术白皮书
大数据·人工智能·科技·算法·音视频·空间计算
Elastic 中国社区官方博客3 小时前
Elastic-caveman : 在不损失 Elastic 最佳效果的情况下,将 AI 响应 tokens 减少64%
大数据·运维·数据库·人工智能·elasticsearch·搜索引擎·全文检索
互联网推荐官3 小时前
上海软件定制开发全流程拆解:需求分析、技术选型与交付管理的工程实践
大数据·数据库·需求分析
samFuB3 小时前
【数据集】分省农林牧渔总产值、农业总产值数据(2007-2024年)
大数据
云天AI实战派4 小时前
AI 智能体问题排查指南:ChatGPT、API 调用到 Agent 上线失灵的全流程修复手册
大数据·人工智能·python·chatgpt·aigc
m0_466525295 小时前
酷特AGI:从“自家试验田”到“全球输出”
大数据·人工智能·agi
市象5 小时前
AI带给TCL空调的头部假想
大数据·人工智能