Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
TM1Club1 分钟前
AI驱动的预测:新的竞争优势
大数据·人工智能·经验分享·金融·数据分析·自动化
追风少年ii4 小时前
多组学扩展---分子对接pyrosetta
python·数据分析·空间·单细胞
wang_yb7 小时前
倾听数据的声音:给数据分析初学者的温馨建议
数据分析·databook
小王毕业啦9 小时前
2010-2024年 非常规高技能劳动力(+文献)
大数据·人工智能·数据挖掘·数据分析·数据统计·社科数据·经管数据
忘忧记11 小时前
某小说数据分析过程
windows·数据挖掘·数据分析
辰宇信息咨询1 天前
3D自动光学检测(AOI)市场调研报告-发展趋势、机遇及竞争分析
大数据·数据分析
番茄大王sc1 天前
2026年科研AI工具深度测评:文献调研与综述生成领域
论文阅读·人工智能·学习方法·论文笔记
地球资源数据云1 天前
中国90米分辨率土壤质地含量数据集
数据分析·遥感数据·卫星遥感
码界奇点1 天前
基于Gin与GORM的若依后台管理系统设计与实现
论文阅读·go·毕业设计·gin·源代码管理
AC赳赳老秦1 天前
科研数据叙事:DeepSeek将实验数据转化为故事化分析框架
开发语言·人工智能·数据分析·r语言·时序数据库·big data·deepseek