hadoop hdfs优势和缺点

hdfs优点

  1. 高容错性
  2. 适合处理大数据
  3. 可构建再廉价的机器上

hdfs缺点

  1. 不适合做低延迟数据访问
  • 毫秒级的存储数据做不到
  1. 无法高效的对大量小文件进行存储
  2. 不支持并发写入 文件随机修改
  • 一个文件只能有一个writer 不允许多个线程同时写
  • 仅支持数据追加 不支持文件的随机修改

hdfs组织结构

namenode 就是master 他是一个主管 管理者
  1. 管理hdfs的名称空间
  2. 配置副本策略
  3. 管理数据块映射信息
  4. 处理客户端读写请求
datanode 就是slave namenode下达命令 datanode执行实际的存储
  1. 存储实际的数据块
  2. 执行数据块的读写操作
client 就是客户端
  1. 文件切分 文件上传hdfs的时候 client讲文件切分成一个一个的block 然后进行上传
  2. 与namenode交互 获取文件的位置信息
  3. 与datanode交互 读取或者写入数据
  4. client 提供一些命令来管理hdfs
  5. cleint 可以通过一些命令来访问hdfs
secondary namenode 并非namenode 热备 当name挂掉的时候 他并不能马上替换namenode 并提供服务
  1. 辅助namenode 分担工作量
  2. 紧急情况 可辅助恢复namenode
hdfs 文件块大小
  1. hdfs的文件在物理上是分块存储 块的大小可以通过配置参数来规定 dfs.blocksize 默认大小在hadoop 128m
  2. 如果寻址时间约为10ms, 即查找到目标block的时间为 10ms。
  3. 寻址时间为传输时间的1% 时,则为最佳状态。(专家) 因此,传输时间 =10ms/0.01=1000ms=1s
  4. 而目前磁盘的传输速率普 遍为100MB/s。
相关推荐
ctrigger8 小时前
水利部直属6大水利设计院简介
大数据·人工智能
badhope8 小时前
10个GitHub高星开源项目推荐
大数据·人工智能·深度学习·数据挖掘·github
Leo.yuan8 小时前
什么是主数据管理?主数据管理怎么做?
大数据·数据库
北京软秦科技有限公司8 小时前
AI报告文档审核重构制药行业质量监管体系:IACheck驱动智慧管控与合规能力全面升级
大数据·人工智能·重构
geneculture8 小时前
智能系统研究:面向通用智能的元架构
大数据·人工智能·架构·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
电商API&Tina9 小时前
主流跨境平台多站点 API 接入流程:淘宝天猫京东API接口
java·大数据·网络·数据库·人工智能·sql·json
Alter12309 小时前
重仓中国供应链的“新拼姆”,想要做线上版的Costco?
大数据·人工智能
终端行者9 小时前
Elasticsearch介绍集群迁移 Es集群如何迁移
大数据·elasticsearch·搜索引擎
ZKNOW甄知科技9 小时前
展会回顾 | 甄知科技携燕千云·智能服务流平台亮相武汉
大数据·运维·人工智能·科技·安全·低代码·信息可视化
尽兴-9 小时前
ElasticSearch 聚合操作详解(含实战示例 + 精度优化 + 性能调优)
大数据·elasticsearch·搜索引擎·桶聚合·指标聚合·管道聚合