《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会 发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。
一、文件背景与目的
-
背景:随着人工智能在各行业深度融合,数据集作为AI模型训练的基础,其质量直接影响模型性能。目前国内缺乏统一的数据集质量评测标准。
-
目的:制定统一的评测规范,推动数据集"以评促建",提升数据集供给质量,促进数据流通与使用,支持AI产业发展。
二、核心内容概述
1. 术语与定义
-
高质量数据集:经过处理,可直接用于AI模型训练,并能提升模型性能的数据集合。
-
其他关键术语包括:数据质量、通识数据集、行业通识数据集、行业专识数据集、数据标注、数据记录等。
2. 评测指标体系
分为三个维度,各维度下含多个子指标:
| 维度 | 子指标(摘要) |
|---|---|
| 说明文档 | 基本信息、内容特征、建设过程、应用说明 |
| 数据质量 | 格式规范、安全规范、标注规范、结构完整、内容真实、内容一致、类型一致、内容干净 |
| 模型应用 | 内容多样、规模完整、内容时效、标注准确、模型适配 |
3. 评测细则
-
整体要求:三个维度的得分均需 ≥ 90 分,才能认定为高质量数据集。
-
计分方式:
-
每个子指标按比例计算得分(如符合比例)。
-
总分加权计算,采用百分制。
-
部分场景(如无监督学习)可豁免标注相关指标。
-
4. 不同模态数据的内容干净性细则(附录A)
针对文本、图像、视频、音频四种模态,分别列出了具体的干净性指标,如:
-
文本:困惑度、重复程度、完整性等
-
图像:分辨率、信噪比、清晰度等
-
视频:分辨率、帧率、动态范围等
-
音频:信噪比、采样率、比特率等
三、适用对象
-
数据集的建设方、提供方、使用方
-
数据评测机构、标准化组织、AI研发团队
-
政府、企业、研究机构等开展数据集质量评估的相关单位
四、意义与价值
-
标准化:填补国内高质量数据集评测标准空白。
-
指导性:为数据集建设、评估、选用提供明确依据。
-
质量保障:通过"评测+建设"双向促进,提升数据集整体质量。
-
产业支持:为AI模型训练提供高质量数据基础,推动AI技术落地与应用。
五、文件结构总结
| 部分 | 内容概要 |
|---|---|
| 前言与引言 | 背景、目的、起草单位 |
| 范围与术语 | 适用范围、关键定义 |
| 指标要求 | 三大维度指标说明 |
| 评测细则 | 计分方法、权重、豁免规则 |
| 附录A | 多模态数据干净性细则 |
| 参考文献 | 相关国标与规范 |
