Croissant:Google新推出的一个为机器学习准备的数据集元数据格式

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在机器学习领域,实践者在使用现有数据集训练模型时,经常需要花费大量时间去理解数据、梳理其组织结构,或确定哪些子集用作特征。这种情况严重阻碍了机器学习领域的进展,因为数据表示形式的多样性构成了一个基本障碍。

机器学习数据集包括了从文本、结构化数据到图像、音频和视频等广泛的内容类型。即使是涵盖相同类型内容的数据集,每个数据集也都有其独特的文件安排和数据格式。这个挑战降低了整个机器学习开发流程的效率,从寻找数据到训练模型,以及开发处理数据集的工具的过程都受到了影响。

虽然存在诸如schema.org和DCAT这样的通用元数据格式,但这些格式主要设计用于数据发现,而不是满足机器学习数据特定需求,比如能够从结构化和非结构化源中提取和结合数据的能力,包括能够促进数据负责任使用的元数据,或描述机器学习使用特性,例如定义训练、测试和验证集的能力。

现在,业界引入了一个名为Croissant的新元数据格式,专为机器学习准备的数据集设计。Croissant是由来自工业界和学术界的社区协作开发的,作为MLCommons努力的一部分。Croissant格式并不改变实际数据的表现形式(如图像或文本文件格式),而是提供了一种标准化的方式来描述和组织数据。Croissant在schema.org的基础上进行了扩展,该标准已被超过4000万个数据集所使用,为机器学习相关的元数据、数据资源、数据组织和默认机器学习语义增加了全面的层次。

此外,业界还宣布了对Croissant格式的广泛支持。从现在起,三个广泛使用的机器学习数据集库------Kaggle、Hugging Face和OpenML------将开始支持他们托管的数据集使用Croissant格式;数据集搜索工具允许用户在网上搜索Croissant数据集;流行的机器学习框架,包括TensorFlow、PyTorch和JAX,可以通过TensorFlow数据集(TFDS)包轻松加载Croissant数据集。

Croissant的1.0版本包括了格式的完整规范、一套示例数据集、一个用于验证、消费和生成Croissant元数据的开源Python库,以及一个用于以直观方式加载、检查和创建Croissant数据集描述的开源视觉编辑器。

从一开始,支持负责任的人工智能(Responsible AI,简称RAI)就是Croissant努力的一个核心目标。业界也发布了Croissant RAI词汇扩展的首个版本,该扩展增加了描述关键RAI使用案例(如数据生命周期管理、数据标注、参与式数据、机器学习安全和公平评估、可解释性和合规性)所需的关键属性。

为什么需要一个共享的机器学习数据格式?大部分机器学习工作实际上是与数据相关的。训练数据是决定模型行为的"代码"。数据集可以是用于训练大型语言模型的文本集合,也可以是用于训练汽车碰撞避免系统的驾驶场景(标注视频)的集合。然而,开发机器学习模型的步骤通常遵循相同的迭代数据中心过程:寻找或收集数据、清理和精炼数据、在数据上训练模型、在更多数据上测试模型、发现模型不起作用、分析数据找出原因、重复直到获得一个可用的模型。由于缺乏一个共同的格式,这些步骤变得更加困难,尤其是对资源有限的研究和早期创业努力而言。

像Croissant这样的格式旨在简化整个过程。例如,元数据可以被搜索引擎和数据集仓库利用,以便更容易地找到合适的数据集。数据资源和组织信息简化了开发用于清理、精炼和分析数据的工具的过程。这些信息和默认的机器学习语义允许机器学习框架以最少的代码使用数据进行训练和测试。这些改进显著减轻了数据开发的负担。

此外,数据集作者关心他们的数据集的可发现性和易用性。采用Croissant可以提高他们数据集的价值,同时只需付出最小的努力,得益于可用的创建工具和机器学习数据平台的支持。

去看看:Croissant - MLCommons

相关推荐
DREAM依旧13 分钟前
隐马尔科夫模型|前向算法|Viterbi 算法
人工智能
GocNeverGiveUp26 分钟前
机器学习2-NumPy
人工智能·机器学习·numpy
B站计算机毕业设计超人1 小时前
计算机毕业设计PySpark+Hadoop中国城市交通分析与预测 Python交通预测 Python交通可视化 客流量预测 交通大数据 机器学习 深度学习
大数据·人工智能·爬虫·python·机器学习·课程设计·数据可视化
学术头条1 小时前
清华、智谱团队:探索 RLHF 的 scaling laws
人工智能·深度学习·算法·机器学习·语言模型·计算语言学
18号房客1 小时前
一个简单的机器学习实战例程,使用Scikit-Learn库来完成一个常见的分类任务——**鸢尾花数据集(Iris Dataset)**的分类
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·sklearn
feifeikon2 小时前
机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)
人工智能·机器学习·线性回归
游客5202 小时前
opencv中的常用的100个API
图像处理·人工智能·python·opencv·计算机视觉
古希腊掌管学习的神2 小时前
[机器学习]sklearn入门指南(2)
人工智能·机器学习·sklearn
凡人的AI工具箱2 小时前
每天40分玩转Django:Django国际化
数据库·人工智能·后端·python·django·sqlite
咸鱼桨2 小时前
《庐山派从入门到...》PWM板载蜂鸣器
人工智能·windows·python·k230·庐山派