《高质量数据集 质量评测规范》(TC609-5-2025-04)

《高质量数据集 质量评测规范》(TC609-5-2025-04)是由全国数据标准化技术委员会 发布的技术文件,旨在为高质量数据集的质量评测提供统一的指标体系和评测细则,以支持人工智能模型开发与训练中的数据质量保障工作。


一、文件背景与目的

  • 背景:随着人工智能在各行业深度融合,数据集作为AI模型训练的基础,其质量直接影响模型性能。目前国内缺乏统一的数据集质量评测标准。

  • 目的:制定统一的评测规范,推动数据集"以评促建",提升数据集供给质量,促进数据流通与使用,支持AI产业发展。


二、核心内容概述

1. 术语与定义

  • 高质量数据集:经过处理,可直接用于AI模型训练,并能提升模型性能的数据集合。

  • 其他关键术语包括:数据质量、通识数据集、行业通识数据集、行业专识数据集、数据标注、数据记录等。

2. 评测指标体系

分为三个维度,各维度下含多个子指标:

维度 子指标(摘要)
说明文档 基本信息、内容特征、建设过程、应用说明
数据质量 格式规范、安全规范、标注规范、结构完整、内容真实、内容一致、类型一致、内容干净
模型应用 内容多样、规模完整、内容时效、标注准确、模型适配

3. 评测细则

  • 整体要求:三个维度的得分均需 ≥ 90 分,才能认定为高质量数据集。

  • 计分方式

    • 每个子指标按比例计算得分(如符合比例)。

    • 总分加权计算,采用百分制。

    • 部分场景(如无监督学习)可豁免标注相关指标。

4. 不同模态数据的内容干净性细则(附录A)

针对文本、图像、视频、音频四种模态,分别列出了具体的干净性指标,如:

  • 文本:困惑度、重复程度、完整性等

  • 图像:分辨率、信噪比、清晰度等

  • 视频:分辨率、帧率、动态范围等

  • 音频:信噪比、采样率、比特率等


三、适用对象

  • 数据集的建设方、提供方、使用方

  • 数据评测机构、标准化组织、AI研发团队

  • 政府、企业、研究机构等开展数据集质量评估的相关单位


四、意义与价值

  1. 标准化:填补国内高质量数据集评测标准空白。

  2. 指导性:为数据集建设、评估、选用提供明确依据。

  3. 质量保障:通过"评测+建设"双向促进,提升数据集整体质量。

  4. 产业支持:为AI模型训练提供高质量数据基础,推动AI技术落地与应用。


五、文件结构总结

部分 内容概要
前言与引言 背景、目的、起草单位
范围与术语 适用范围、关键定义
指标要求 三大维度指标说明
评测细则 计分方法、权重、豁免规则
附录A 多模态数据干净性细则
参考文献 相关国标与规范
相关推荐
HackTorjan12 小时前
2026年5月29日:全球首个通用人工智能操作系统正式发布,开启人机协同新纪元
人工智能
刘大猫.12 小时前
智造短剧新引擎:火山引擎上线「火山剧创 1.0」,制作效率提升 80%
人工智能·ai·chatgpt·机器人·大模型·火山引擎·短剧新引擎
红尘散仙12 小时前
我把终端小说阅读器接上了 AI Agent:TRNovel 现在能用 skill 生成书源了
人工智能·后端·rust
雅菲奥朗12 小时前
企业级 AI 自动化|OpenClaw 龙虾实战与认证
运维·人工智能·自动化·openclaw
HIT_Weston12 小时前
99、【Agent】【OpenCode】task 工具提示词(Slash command)(一)
人工智能·agent·opencode
25 Hz12 小时前
Mind 爱好者时空表征刊 第24期 | 时间结构学习、空间对时间表征的补偿、事件内部的时间扭曲……
人工智能
心中有国也有家12 小时前
GE图引擎深度解析——CANN的计算图优化与执行引擎
人工智能·pytorch·python·学习·numpy
海兰13 小时前
【文字三国志:第一篇】天命重构,大语言模型(LLM)动态生成文言风格的叙事文本的文字游戏
人工智能·游戏·语言模型
cxr82813 小时前
高分子复合材料 AI 逆向设计合——验证闭环、决策优化与中试放大
人工智能·材料逆向设计合成
litble13 小时前
如何速成LLM以伪装成一个AI研究者(6)——LoRA,Adapter,P-tuning,量化,QLoRA
人工智能·lora·量化·peft·qlora·高效微调