Croissant：Google新推出的一个为机器学习准备的数据集元数据格式

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

在机器学习领域，实践者在使用现有数据集训练模型时，经常需要花费大量时间去理解数据、梳理其组织结构，或确定哪些子集用作特征。这种情况严重阻碍了机器学习领域的进展，因为数据表示形式的多样性构成了一个基本障碍。

机器学习数据集包括了从文本、结构化数据到图像、音频和视频等广泛的内容类型。即使是涵盖相同类型内容的数据集，每个数据集也都有其独特的文件安排和数据格式。这个挑战降低了整个机器学习开发流程的效率，从寻找数据到训练模型，以及开发处理数据集的工具的过程都受到了影响。

虽然存在诸如schema.org和DCAT这样的通用元数据格式，但这些格式主要设计用于数据发现，而不是满足机器学习数据特定需求，比如能够从结构化和非结构化源中提取和结合数据的能力，包括能够促进数据负责任使用的元数据，或描述机器学习使用特性，例如定义训练、测试和验证集的能力。

现在，业界引入了一个名为Croissant的新元数据格式，专为机器学习准备的数据集设计。Croissant是由来自工业界和学术界的社区协作开发的，作为MLCommons努力的一部分。Croissant格式并不改变实际数据的表现形式（如图像或文本文件格式），而是提供了一种标准化的方式来描述和组织数据。Croissant在schema.org的基础上进行了扩展，该标准已被超过4000万个数据集所使用，为机器学习相关的元数据、数据资源、数据组织和默认机器学习语义增加了全面的层次。

此外，业界还宣布了对Croissant格式的广泛支持。从现在起，三个广泛使用的机器学习数据集库------Kaggle、Hugging Face和OpenML------将开始支持他们托管的数据集使用Croissant格式；数据集搜索工具允许用户在网上搜索Croissant数据集；流行的机器学习框架，包括TensorFlow、PyTorch和JAX，可以通过TensorFlow数据集（TFDS）包轻松加载Croissant数据集。

Croissant的1.0版本包括了格式的完整规范、一套示例数据集、一个用于验证、消费和生成Croissant元数据的开源Python库，以及一个用于以直观方式加载、检查和创建Croissant数据集描述的开源视觉编辑器。

从一开始，支持负责任的人工智能（Responsible AI，简称RAI）就是Croissant努力的一个核心目标。业界也发布了Croissant RAI词汇扩展的首个版本，该扩展增加了描述关键RAI使用案例（如数据生命周期管理、数据标注、参与式数据、机器学习安全和公平评估、可解释性和合规性）所需的关键属性。

为什么需要一个共享的机器学习数据格式？大部分机器学习工作实际上是与数据相关的。训练数据是决定模型行为的"代码"。数据集可以是用于训练大型语言模型的文本集合，也可以是用于训练汽车碰撞避免系统的驾驶场景（标注视频）的集合。然而，开发机器学习模型的步骤通常遵循相同的迭代数据中心过程：寻找或收集数据、清理和精炼数据、在数据上训练模型、在更多数据上测试模型、发现模型不起作用、分析数据找出原因、重复直到获得一个可用的模型。由于缺乏一个共同的格式，这些步骤变得更加困难，尤其是对资源有限的研究和早期创业努力而言。

像Croissant这样的格式旨在简化整个过程。例如，元数据可以被搜索引擎和数据集仓库利用，以便更容易地找到合适的数据集。数据资源和组织信息简化了开发用于清理、精炼和分析数据的工具的过程。这些信息和默认的机器学习语义允许机器学习框架以最少的代码使用数据进行训练和测试。这些改进显著减轻了数据开发的负担。

此外，数据集作者关心他们的数据集的可发现性和易用性。采用Croissant可以提高他们数据集的价值，同时只需付出最小的努力，得益于可用的创建工具和机器学习数据平台的支持。

去看看：Croissant - MLCommons