Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
Brduino脑机接口技术答疑9 小时前
TDCA 算法在 SSVEP 场景中的 Padding 技术:原理、应用与工程实现
人工智能·算法·机器学习·数据分析·脑机接口
A3608_(韦煜粮)11 小时前
从数据沼泽到智慧引擎:现代大数据分析与应用架构全景解密
大数据·数据分析·数据治理·实时计算·数据架构·数据网格·数据湖仓
EEPI12 小时前
【论文阅读】Vision Language Models are In-Context Value Learners
论文阅读·人工智能·语言模型
墨绿色的摆渡人13 小时前
论文笔记(一百一十六)ViTa-Zero: Zero-shot Visuotactile Object 6D Pose Estimation
论文阅读
醒了就刷牙16 小时前
Vilt论文相关工作部分
论文阅读·论文笔记
m0_7431064617 小时前
【Feedforward 3dgs】YOU ONLY NEED ONE MODEL
论文阅读·人工智能·计算机视觉·3d·几何学
心无旁骛~17 小时前
华为 ModelEngine Nexent低代码平台单智能体评测:数据分析智能体 —— 零代码实现数据洞察与可视化闭环
低代码·数据挖掘·数据分析
yousuotu17 小时前
基于Python的亚马逊销售数据集探索性数据分析
开发语言·python·数据分析
没有梦想的咸鱼185-1037-166317 小时前
土壤污染物迁移路径与范围模拟(适用于污染场地评估、修复工程、地下水保护)
数据分析
有Li17 小时前
基于小波分析和记忆库的超声长视频时空细节追踪-文献速递-医疗影像分割与目标检测最新技术
论文阅读·文献·医学生