Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
网安INF6 小时前
【论文阅读】-《HopSkipJumpAttack: A Query-Efficient Decision-Based Attack》
论文阅读·人工智能·深度学习·网络安全·对抗攻击
张较瘦_8 小时前
[论文阅读] 软件工程工具 | EVOSCAT可视化工具如何重塑软件演化研究
论文阅读·软件工程
果粒橙_LGC8 小时前
论文阅读系列(一)Qwen-Image Technical Report
论文阅读·人工智能·学习
AustinCyy9 小时前
【论文笔记】Multi-Agent Based Character Simulation for Story Writing
论文阅读
阿里云大数据AI技术9 小时前
ODPS 十五周年实录 | 为 AI 而生的数据平台
大数据·数据分析·开源
SelectDB技术团队9 小时前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
一个处女座的程序猿11 小时前
DataAnalytics之Tool:Metabase的简介、安装和使用方法、案例应用之详细攻略
数据分析
张较瘦_13 小时前
[论文阅读] 人工智能 | 当Hugging Face遇上GitHub:预训练语言模型的跨平台同步难题与解决方案
论文阅读·人工智能·github
dundunmm13 小时前
【论文阅读】SIMBA: single-cell embedding along with features(1)
论文阅读·深度学习·神经网络·embedding·生物信息·单细胞·多组学
TuringAcademy1 天前
AAAI爆款:目标检测新范式,模块化设计封神之作
论文阅读·人工智能·目标检测·论文笔记