《高质量数据集 质量评测规范》(TC609-5-2025-04)

《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会 发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。


一、文件背景与目的

  • 背景:随着人工智能在各行业深度融合,数据集作为AI模型训练的基础,其质量直接影响模型性能。目前国内缺乏统一的数据集质量评测标准。

  • 目的:制定统一的评测规范,推动数据集"以评促建",提升数据集供给质量,促进数据流通与使用,支持AI产业发展。


二、核心内容概述

1. 术语与定义

  • 高质量数据集:经过处理,可直接用于AI模型训练,并能提升模型性能的数据集合。

  • 其他关键术语包括:数据质量、通识数据集、行业通识数据集、行业专识数据集、数据标注、数据记录等。

2. 评测指标体系

分为三个维度,各维度下含多个子指标:

维度 子指标(摘要)
说明文档 基本信息、内容特征、建设过程、应用说明
数据质量 格式规范、安全规范、标注规范、结构完整、内容真实、内容一致、类型一致、内容干净
模型应用 内容多样、规模完整、内容时效、标注准确、模型适配

3. 评测细则

  • 整体要求:三个维度的得分均需 ≥ 90 分,才能认定为高质量数据集。

  • 计分方式

    • 每个子指标按比例计算得分(如符合比例)。

    • 总分加权计算,采用百分制。

    • 部分场景(如无监督学习)可豁免标注相关指标。

4. 不同模态数据的内容干净性细则(附录A)

针对文本、图像、视频、音频四种模态,分别列出了具体的干净性指标,如:

  • 文本:困惑度、重复程度、完整性等

  • 图像:分辨率、信噪比、清晰度等

  • 视频:分辨率、帧率、动态范围等

  • 音频:信噪比、采样率、比特率等


三、适用对象

  • 数据集的建设方、提供方、使用方

  • 数据评测机构、标准化组织、AI研发团队

  • 政府、企业、研究机构等开展数据集质量评估的相关单位


四、意义与价值

  1. 标准化:填补国内高质量数据集评测标准空白。

  2. 指导性:为数据集建设、评估、选用提供明确依据。

  3. 质量保障:通过"评测+建设"双向促进,提升数据集整体质量。

  4. 产业支持:为AI模型训练提供高质量数据基础,推动AI技术落地与应用。


五、文件结构总结

部分 内容概要
前言与引言 背景、目的、起草单位
范围与术语 适用范围、关键定义
指标要求 三大维度指标说明
评测细则 计分方法、权重、豁免规则
附录A 多模态数据干净性细则
参考文献 相关国标与规范
相关推荐
Rubin智造社6 小时前
安全先行·自主编程|Claude Code Opus 4.7深度解读:AI开发进入合规量产时代
人工智能·anthropic·claude opus 4.7·mythos preview·xhigh努力等级·/ultrareview命令·自主开发ai
xinlianyq6 小时前
全球 AI 芯片格局生变:英伟达主导训练,国产算力崛起推理
人工智能
ShineWinsu7 小时前
AI训练硬件指南:GPU算力梯队与任务匹配框架
人工智能
范桂飓7 小时前
精选 Skills 清单
人工智能
码农的日常搅屎棍7 小时前
AIAgent开发新选择:OpenHarness极简入门指南
人工智能
AC赳赳老秦7 小时前
OpenClaw生成博客封面图+标题,适配CSDN视觉搜索,提升点击量
运维·人工智能·python·自动化·php·deepseek·openclaw
萝卜小白7 小时前
算法实习Day04-MinerU2.5-pro
人工智能·算法·机器学习
geneculture7 小时前
从人际间性到人机间性:进入人机互助新时代——兼论融智学视域下人类认知第二次大飞跃的理论奠基与实践场域
人工智能·融智学的重要应用·哲学与科学统一性·融智时代(杂志)·人际间性·人机间性·人际间文性
东方品牌观察7 小时前
观澜社张庆解析AI:便利与挑战并存
人工智能
w_t_y_y7 小时前
Agent 开发框架(一)有哪些框架&&A2A协议
人工智能