hadoop hdfs优势和缺点

hdfs优点

  1. 高容错性
  2. 适合处理大数据
  3. 可构建再廉价的机器上

hdfs缺点

  1. 不适合做低延迟数据访问
  • 毫秒级的存储数据做不到
  1. 无法高效的对大量小文件进行存储
  2. 不支持并发写入 文件随机修改
  • 一个文件只能有一个writer 不允许多个线程同时写
  • 仅支持数据追加 不支持文件的随机修改

hdfs组织结构

namenode 就是master 他是一个主管 管理者
  1. 管理hdfs的名称空间
  2. 配置副本策略
  3. 管理数据块映射信息
  4. 处理客户端读写请求
datanode 就是slave namenode下达命令 datanode执行实际的存储
  1. 存储实际的数据块
  2. 执行数据块的读写操作
client 就是客户端
  1. 文件切分 文件上传hdfs的时候 client讲文件切分成一个一个的block 然后进行上传
  2. 与namenode交互 获取文件的位置信息
  3. 与datanode交互 读取或者写入数据
  4. client 提供一些命令来管理hdfs
  5. cleint 可以通过一些命令来访问hdfs
secondary namenode 并非namenode 热备 当name挂掉的时候 他并不能马上替换namenode 并提供服务
  1. 辅助namenode 分担工作量
  2. 紧急情况 可辅助恢复namenode
hdfs 文件块大小
  1. hdfs的文件在物理上是分块存储 块的大小可以通过配置参数来规定 dfs.blocksize 默认大小在hadoop 128m
  2. 如果寻址时间约为10ms, 即查找到目标block的时间为 10ms。
  3. 寻址时间为传输时间的1% 时,则为最佳状态。(专家) 因此,传输时间 =10ms/0.01=1000ms=1s
  4. 而目前磁盘的传输速率普 遍为100MB/s。
相关推荐
qq_508823403 小时前
金融量化指标--2Alpha 阿尔法
大数据·人工智能
好家伙VCC4 小时前
数学建模模型 全网最全 数学建模常见算法汇总 含代码分析讲解
大数据·嵌入式硬件·算法·数学建模
2301_781668616 小时前
Elasticsearch 02
大数据·elasticsearch·搜索引擎
isfox7 小时前
Google GFS 深度解析:分布式文件系统的开山之作
大数据·hadoop
用户Taobaoapi20148 小时前
京东店铺所有商品API技术开发文档
大数据·数据挖掘·数据分析
在未来等你8 小时前
Kafka面试精讲 Day 8:日志清理与数据保留策略
大数据·分布式·面试·kafka·消息队列
江畔独步9 小时前
Flink TaskManager日志时间与实际时间有偏差
大数据·flink
TDengine (老段)9 小时前
TDengine 选择函数 Last() 用户手册
大数据·数据库·sql·物联网·时序数据库·tdengine·涛思数据
鼠鼠我捏,要死了捏10 小时前
Hadoop NameNode内存泄漏与GC停顿问题排查与解决方案
hadoop·问题排查·jvm优化
TDengine (老段)10 小时前
TDengine 选择函数 First 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据