《高质量数据集 质量评测规范》(TC609-5-2025-04)

《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会 发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。


一、文件背景与目的

  • 背景:随着人工智能在各行业深度融合,数据集作为AI模型训练的基础,其质量直接影响模型性能。目前国内缺乏统一的数据集质量评测标准。

  • 目的:制定统一的评测规范,推动数据集"以评促建",提升数据集供给质量,促进数据流通与使用,支持AI产业发展。


二、核心内容概述

1. 术语与定义

  • 高质量数据集:经过处理,可直接用于AI模型训练,并能提升模型性能的数据集合。

  • 其他关键术语包括:数据质量、通识数据集、行业通识数据集、行业专识数据集、数据标注、数据记录等。

2. 评测指标体系

分为三个维度,各维度下含多个子指标:

维度 子指标(摘要)
说明文档 基本信息、内容特征、建设过程、应用说明
数据质量 格式规范、安全规范、标注规范、结构完整、内容真实、内容一致、类型一致、内容干净
模型应用 内容多样、规模完整、内容时效、标注准确、模型适配

3. 评测细则

  • 整体要求:三个维度的得分均需 ≥ 90 分,才能认定为高质量数据集。

  • 计分方式

    • 每个子指标按比例计算得分(如符合比例)。

    • 总分加权计算,采用百分制。

    • 部分场景(如无监督学习)可豁免标注相关指标。

4. 不同模态数据的内容干净性细则(附录A)

针对文本、图像、视频、音频四种模态,分别列出了具体的干净性指标,如:

  • 文本:困惑度、重复程度、完整性等

  • 图像:分辨率、信噪比、清晰度等

  • 视频:分辨率、帧率、动态范围等

  • 音频:信噪比、采样率、比特率等


三、适用对象

  • 数据集的建设方、提供方、使用方

  • 数据评测机构、标准化组织、AI研发团队

  • 政府、企业、研究机构等开展数据集质量评估的相关单位


四、意义与价值

  1. 标准化:填补国内高质量数据集评测标准空白。

  2. 指导性:为数据集建设、评估、选用提供明确依据。

  3. 质量保障:通过"评测+建设"双向促进,提升数据集整体质量。

  4. 产业支持:为AI模型训练提供高质量数据基础,推动AI技术落地与应用。


五、文件结构总结

部分 内容概要
前言与引言 背景、目的、起草单位
范围与术语 适用范围、关键定义
指标要求 三大维度指标说明
评测细则 计分方法、权重、豁免规则
附录A 多模态数据干净性细则
参考文献 相关国标与规范
相关推荐
zero15972 小时前
SpecCoding:规范驱动开发的工具与方法论全解析
人工智能·ai智能体
monsion2 小时前
Code Agent 的上下文压缩:不是 zip,而是工作记忆管理
大数据·人工智能
杜子不疼.2 小时前
OpenClaw横空出世:星标榜第一的AI Agent框架凭什么引爆2026?
人工智能
A小码哥2 小时前
ARC-AGI-2:抽象推理与泛化能力的终极测试
人工智能·agi
梯度下降中2 小时前
LoRA原理精讲
人工智能·算法·机器学习
晚秋贰拾伍2 小时前
科技周刊08-微博上线国内社交平台首个AI社区
人工智能·科技
小陈工2 小时前
2026年3月28日技术资讯洞察:5G-A边缘计算落地、低延迟AI推理革命与工业智造新范式
开发语言·人工智能·后端·python·5g·安全·边缘计算
openFuyao2 小时前
openFuyao亮相KubeCon Europe 2026 携InferNex套件深耕AI云原生推理领域
人工智能·云原生
剑穗挂着新流苏3122 小时前
203_深度学习的第一步:线性回归模型与 SGD 优化算法实战
人工智能·深度学习·机器学习