Metadata Traces and Workload Models for Evaluating Big Storage Systems——论文泛读

International Conference on Utility and Cloud Computing 2012 Paper

问题

随着文件系统发展,高效的命名空间元数据管理变得越来越重要。然而,由于没有公开的大数据存储系统元数据跟踪,现有评估一直不够充分。

挑战

本文将命名空间元数据跟踪定义为存储系统跟踪,该跟踪包含命名空间的快照(文件和目录层次结构)以及在该命名空间上操作的一组事件(例如,打开文件、列出目录内容、创建文件)。

但公开可用的存储跟踪不符合以上定义,因为它们不包含命名空间的快照。由于在大数据工作负载中观察到的重尾访问模式,因此跟踪产生的命名空间将不包含命名空间的大部分(即,在存储跟踪期间未访问的部分)。

本文方法

本文研究了公开可用的跟踪和雅虎的一个大数据跟踪,并注意到其中的一些差异及其对元数据管理研究的影响。

提出了Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。并通过Hadoop分布式文件系统最近使用最少的元数据缓存的案例研究来评估它的有用性。

仿真结果表明,Mimesis生成的跟踪模拟了原始工作负载,可以用来代替真实的跟踪,从而提供准确的结果。

总结

对现有的元数据跟踪分析,发现现有跟踪缺乏命名空闲信息,导致大量跟踪期间未访问的信息缺失。本文提出Mimesis,一个合成的工作负载生成器,包括命名空间生成模块和工作负载生成模块。实现较好的工作负载生成结果,RMSE<6%。

相关推荐
计算机学姐15 小时前
基于Python的旅游数据分析可视化系统【2026最新】
vue.js·后端·python·数据分析·django·flask·旅游
阿里云大数据AI技术16 小时前
淘宝闪购实时分析黑科技:StarRocks + Paimon撑起秋天第一波奶茶自由
数据分析
饼干哥哥18 小时前
Vibe Marketing|用Claude code+kimi k2爬取了120个 b站视频做内容选题数据分析
数据分析·aigc
Re_Yang0920 小时前
2025年统计与数据分析领域专业认证发展指南
服务器·人工智能·数据分析
华科云商xiao徐21 小时前
Linux环境下爬虫程序的部署难题与系统性解决方案
爬虫·数据挖掘·数据分析
木木子999921 小时前
不同行业视角下的数据分析
数据挖掘·数据分析
没有梦想的咸鱼185-1037-166321 小时前
基于R语言机器学习方法在生态经济学领域中的实践技术应用
开发语言·机器学习·数据分析·r语言
Webb Yu1 天前
Azure Databricks 实践:数据分析、机器学习、ETL 与 Delta Lake
机器学习·数据分析·azure
亚马逊云开发者1 天前
基于 Amazon Q Developer+Remote MCP 访问 Amazon Redshift
数据分析
张较瘦_1 天前
[论文阅读] 人工智能 + 软件工程 | 大模型破局跨平台测试!LLMRR让iOS/安卓/鸿蒙脚本无缝迁移
论文阅读·人工智能·ios