HDFS异构存储和存储策略

一、HDFS异构存储类型

1.1 冷、热、温、冻数据

通常,公司或者组织总是有相当多的历史数据占用昂贵的存储空间。典型的数据使用模式是新传入的数据被应用程序大量使用,从而该数据被标记为"热"数据。随着时间的推移,存储的数据每周被访问几次,而不是一天几次,这时认为其是"暖"数据。在接下来的几周和几个月中,数据使用率下降得更多,成为"冷"数据。如果很少使用数据,例如每年查询一次或两次,这时甚至可以根据其年龄创建第四个数据分类,并将这组很少被查询的旧数据称为"冻结数据"。 Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上,用于归档或冷存储。可以设置存储策略,将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。 Hadoop 2.5及以上版本都支持存储策略,在该策略下,不仅可以在默认的传统磁盘上存储HDFS数据,还可以在SSD(固态硬盘)上存储数据。

1.2 什么是异构存储

  • 异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。 例如冷热数据的存储,对冷数据采取容量大,读写性能不高的存储介质如机械硬盘,对于热数据,可使用SSD硬盘存储。
  • 在读写效率上性能差距大。异构特性允许我们对不同文件选择不同的存储介质进行保存,以实现机器性能的最大化。

1.3 HDFS异构存储类型

HDFS中声明定义了4种异构存储类型:

  • RAM_DISK(内存)
  • SSD(固态硬盘)
  • DISK(机械硬盘),默认使用。
  • ARCHIVE(高密度存储介质,存储档案历史数据)

其中true和false指是否使用transient, transient代表非持久化,而只有内存存储是transient

如何让HDFS知道集群中的数据存储目录是哪种类型存储介质?

  • 配置属性时主动声明。HDFS并没有自动检测的能力。
  • 配置参数dfs.datanode.data.dir = [SSD]file:///grid/dn/ssdO
  • 如果目录前没有带上[SSD] [DISK] [ARCHIVE] [RAM_DISK] 这4种类型中的任何一种,则默认是DISK类型

二、存储类型选择策略

2.1 块存储类型选择策略

(1) 块存储指的是对HDFS文件的数据块副本储存。

(2)对于数据的存储介质,HDFS的BlockStoragePolicySuite 类内部定义了6种策略。

  • HOT(默认策略)
  • COLD
  • WARM
  • ALL_SSD
  • ONE_SSD
  • LAZY_PERSIST

(3)前三种根据冷热数据区分,后三种根据磁盘性质区分。

2.2 块存储类型选择策略--说明

  • HOT:用于存储和计算。流行且仍用于处理的数据将保留在此策略中。所有副本都存储在DISK中。
  • COLD:仅适用于计算量有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。
  • WARM:部分热和部分冷。热时,其某些副本存储在DISK中,其余副本存储在ARCHIVE中。
  • All_SSD:将所有副本存储在SSD中。
  • One_SSD:用于将副本之一存储在SSD中。其余副本存储在DISK中。
  • Lazy_Persist:用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK,然后将其延迟保存在DISK中。

2.3 块存储类型选择策略--速度快慢比较

三、 HDFS内存存储策略支持--LAZY PERSIST

  • HDFS支持把数据写入由DataNode管理的堆外内存;
  • DataNode异步地将内存中数据刷新到磁盘,从而减少代价较高的磁盘IO操作,这种写入称为 Lazy Persist写入。
  • 该特性从Apache Hadoop 2.6.0开始支持。

3.1 HDFS内存存储策略支持--LAZY PERSIST执行流程

  • 对目标文件目录设置 StoragePolicy 为 LAZY_PERSIST 的内存存储策略 。
  • 客户端进程向 NameNode 发起创建/写文件的请求 。
  • 客户端请求到具体的 DataNode 后 DataNode 会把这些数据块写入 RAM 内存中,同时启动异步线程服务将内存数据持久化写到磁盘上 。
  • 内存的异步持久化存储是指数据不是马上落盘,而是懒惰的、延时地进行处理 。
相关推荐
foxhuli22934 分钟前
禁止ifrmare标签上的文件,实现自动下载功能,并且隐藏工具栏
前端
青皮桔1 小时前
CSS实现百分比水柱图
前端·css
失落的多巴胺1 小时前
使用deepseek制作“喝什么奶茶”随机抽签小网页
javascript·css·css3·html5
DataGear1 小时前
如何在DataGear 5.4.1 中快速制作SQL服务端分页的数据表格看板
javascript·数据库·sql·信息可视化·数据分析·echarts·数据可视化
影子信息1 小时前
vue 前端动态导入文件 import.meta.glob
前端·javascript·vue.js
青阳流月1 小时前
1.vue权衡的艺术
前端·vue.js·开源
样子20181 小时前
Vue3 之dialog弹框简单制作
前端·javascript·vue.js·前端框架·ecmascript
kevin_水滴石穿1 小时前
Vue 中报错 TypeError: crypto$2.getRandomValues is not a function
前端·javascript·vue.js
翻滚吧键盘1 小时前
vue文本插值
javascript·vue.js·ecmascript
孤水寒月2 小时前
给自己网站增加一个免费的AI助手,纯HTML
前端·人工智能·html