Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
李昊哲小课3 小时前
matplotlib多子图与复杂布局实战
python·数据分析·matplotlib·数据可视化
vx_biyesheji00016 小时前
计算机毕业设计:Python多源新闻数据智能舆情挖掘平台 Flask框架 爬虫 SnowNLP ARIMA 可视化 数据分析 大数据(建议收藏)✅
爬虫·python·机器学习·数据分析·django·flask·课程设计
电科_银尘6 小时前
【论文阅读】Deep Cascade:开启级联网络与数据一致性(DC)的新纪元
论文阅读
电商API_180079052478 小时前
电商平台公开数据采集实践:基于合规接口的数据分析方案
开发语言·数据库·人工智能·数据挖掘·数据分析·网络爬虫
deepdata_cn9 小时前
什么是规范性分析(Prescriptive Analytics)
数据分析·规范性分析
Chunyyyen9 小时前
【第三十七周】论文阅读03
论文阅读
Simon_lca20 小时前
突破合规瓶颈:ZDHC Supplier to Zero(工厂零排放 - 进阶型)体系全攻略
大数据·网络·人工智能·分类·数据挖掘·数据分析·零售
智算菩萨1 天前
【Generative AI For Autonomous Driving】1 生成式AI重塑自动驾驶的技术浪潮与体系化挑战
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨1 天前
【Generative AI For Autonomous Driving】7 生成式AI驱动自动驾驶的未来图景:开放挑战、社会机遇与技术展望
论文阅读·人工智能·深度学习·机器学习·ai·自动驾驶
智算菩萨1 天前
元认知AI素养:来自交互式AI展览的发现——文献精读
论文阅读·人工智能·深度学习·ai