Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
笨蛋少年派6 小时前
跨境电商大数据分析系统案例:③建模、分析与暂时收尾
hive·数据挖掘·数据分析
Cisyam^7 小时前
openGauss + LangChain Agent实战:从自然语言到SQL的智能数据分析助手
sql·数据分析·langchain
CC数学建模8 小时前
被问爆的 “高颜值 + 强功能” 学生管理系统!Flask+MySQL 全栈开发,自带数据分析 + 幸福指标,毕设 / 竞赛直接
mysql·数据分析·flask
咚咚王者10 小时前
人工智能之数据分析 Matplotlib:第四章 图形类型
人工智能·数据分析·matplotlib
语落心生12 小时前
大宗供应链企业舆情指标系统设计(一)舆情指标设计
数据分析
语落心生13 小时前
餐饮供应链的数仓设计思考 (五) 系统稳定性与SLA保障体系
数据分析
语落心生13 小时前
餐饮供应链的数仓设计思考 (四) 餐饮连锁企业数据模型可解释性
数据分析
语落心生13 小时前
餐饮供应链的数仓设计思考 (三) 数据管道与核心系统API对接方案
数据分析
语落心生13 小时前
餐饮供应链的数仓设计思考 (二) 餐饮连锁企业深度业务模型分析
数据分析
语落心生13 小时前
餐饮供应链的数仓设计思考 (一) 系统设计大纲
数据分析