《高质量数据集 质量评测规范》(TC609-5-2025-04)

《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会 发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。


一、文件背景与目的

  • 背景:随着人工智能在各行业深度融合,数据集作为AI模型训练的基础,其质量直接影响模型性能。目前国内缺乏统一的数据集质量评测标准。

  • 目的:制定统一的评测规范,推动数据集"以评促建",提升数据集供给质量,促进数据流通与使用,支持AI产业发展。


二、核心内容概述

1. 术语与定义

  • 高质量数据集:经过处理,可直接用于AI模型训练,并能提升模型性能的数据集合。

  • 其他关键术语包括:数据质量、通识数据集、行业通识数据集、行业专识数据集、数据标注、数据记录等。

2. 评测指标体系

分为三个维度,各维度下含多个子指标:

维度 子指标(摘要)
说明文档 基本信息、内容特征、建设过程、应用说明
数据质量 格式规范、安全规范、标注规范、结构完整、内容真实、内容一致、类型一致、内容干净
模型应用 内容多样、规模完整、内容时效、标注准确、模型适配

3. 评测细则

  • 整体要求:三个维度的得分均需 ≥ 90 分,才能认定为高质量数据集。

  • 计分方式

    • 每个子指标按比例计算得分(如符合比例)。

    • 总分加权计算,采用百分制。

    • 部分场景(如无监督学习)可豁免标注相关指标。

4. 不同模态数据的内容干净性细则(附录A)

针对文本、图像、视频、音频四种模态,分别列出了具体的干净性指标,如:

  • 文本:困惑度、重复程度、完整性等

  • 图像:分辨率、信噪比、清晰度等

  • 视频:分辨率、帧率、动态范围等

  • 音频:信噪比、采样率、比特率等


三、适用对象

  • 数据集的建设方、提供方、使用方

  • 数据评测机构、标准化组织、AI研发团队

  • 政府、企业、研究机构等开展数据集质量评估的相关单位


四、意义与价值

  1. 标准化:填补国内高质量数据集评测标准空白。

  2. 指导性:为数据集建设、评估、选用提供明确依据。

  3. 质量保障:通过"评测+建设"双向促进,提升数据集整体质量。

  4. 产业支持:为AI模型训练提供高质量数据基础,推动AI技术落地与应用。


五、文件结构总结

部分 内容概要
前言与引言 背景、目的、起草单位
范围与术语 适用范围、关键定义
指标要求 三大维度指标说明
评测细则 计分方法、权重、豁免规则
附录A 多模态数据干净性细则
参考文献 相关国标与规范
相关推荐
飞Link13 小时前
2000 亿砸向算力:字节跳动 AI 基建跨越,后端与运维的“万亿 Token”生死战
运维·人工智能
zhangfeng113313 小时前
小龙虾 wordbuddy 安装浏览器控制器 agent-browser npm install -g agent-browse
前端·人工智能·npm·node.js
阿里云大数据AI技术13 小时前
一条 SQL 生成广告:Hologres 如何实现素材生成到投放分析一体化
人工智能·sql
liudanzhengxi13 小时前
GitSubmodule避坑全攻略
人工智能·新人首发
用户4252108006013 小时前
Claude Code Linux 服务器部署与配置
人工智能
OJAC11113 小时前
学过Python却不敢投AI岗,他最后拿下12K offer
人工智能
Bigger13 小时前
因为看不懂小棉袄的画,我写了个 AI 程序帮我“翻译”她的世界
前端·人工智能·ai编程
CeshirenTester13 小时前
LangChain的工具调用 vs 原生Skill API:性能差在哪儿?
java·人工智能·langchain
爱问的艾文14 小时前
八周带你手搓AI应用-第二周-让AI更像人-第1天-流式输出改造
人工智能
多年小白14 小时前
【周末消息面汇总】2026年5月10日(周日)
人工智能·科技·机器学习·ai·金融