1.1.1 AI->GB T 42755-2023数据集标注标准:GB T 42755-2023《人工智能 面向机器学习的数据标注规程》

GB/T 42755-2023《人工智能 面向机器学习的数据标注规程》 是我国首个数据标注领域的国家标准,于 2023 年 5 月 23 日发布,2023 年 12 月 1 日正式实施。该标准为 AI 数据标注提供了全流程规范,核心是保障标注质量、安全与一致性,适用于文本、图像、音频、视频、点云等多类型数据标注

标准核心框架(三大阶段)

标准将数据标注划分为前期准备、任务执行、结果输出三大核心阶段,覆盖从需求到交付的完整闭环

前期准备阶段

  1. 标注任务定义

    • 需形成书面标注任务说明,明确标注目标、对象、类别、属性、方法、正反示例、验收规则
    • 数据需先预处理:清洗、去重、脱敏、格式统一
  2. 标注人员要求

    • 分级:普通标注员、专业标注员、领域专家
    • 必须经培训 + 考核合格上岗,定期复训
  3. 标注环境要求

    • 安全:双因素认证、操作录屏审计、数据存储与标注域逻辑隔离
    • 工具:支持多模态数据、任务分配、进度跟踪、质量检查、版本控制、标准格式导出

任务执行阶段

  1. 过程控制

    • 分工明确:数据需求方、标注管理方、标注方三方权责清晰
    • 流程可追溯:全环节日志记录,防止篡改
    • 流式质检:抽检率≥20% ,高危 / 敏感样本100% 复核
  2. 质量保证(核心指标)

    • 一致性 :多标注者 Kappa 系数≥0.85 ;图像标注 IOU≥0.90
    • 准确性 :分类标注准确率≥95% ;关键点定位误差≤3 像素
    • 数据均衡 :少数类样本≥5% ,特征覆盖熵值≥0.7
    • 完整性:必填标注项无遗漏,元数据完整
  3. 管理机制

    • 建立冲突解决、异常上报、进度监控、成本控制机制

结果输出阶段

  1. 内部质检

    • 二级 / 三级质检:初检→复检→抽检,不合格数据返工
    • 出具质量报告:准确率、一致性、覆盖率、问题统计
  2. 数据交付

    • 按约定格式(JSON/XML/CSV 等)交付
    • 数据说明书:来源、标注方法、质量评估、版本、版权说明
  3. 后期维护

    • 版本管理:记录修改历史,支持回溯
    • 反馈优化:根据模型应用效果迭代标注规则

二、不同数据类型的专项要求

  • 文本标注

    • 分类:标签体系清晰、互斥无歧义
    • 实体 / 情感:边界准确、情感极性一致,一致性≥90%
  • 图像标注

    • 分类:单图多标签准确,漏标率<1%
    • 检测 / 分割:边界框 IOU≥0.9 ;实例分割 Mask IoU≥0.85
    • 关键点:定位误差≤3 像素
  • 视频标注

    • 关键帧 / 逐帧标注,目标 ID 追踪稳定,切换率≤5%
  • 点云标注

    • 3D 框 IOU≥0.8(16 线激光雷达)
  • 音频标注

    • 转写准确率≥98%,说话人分离、时间戳精确

安全与合规(安全护城河)

  • 敏感数据保护

    • PII(个人可识别信息)自动脱敏 ,召回率≥99%
    • 严禁未脱敏标注人脸、指纹等生物特征
  • 内容安全

    • 政治有害 / 色情 / 暴力 / 歧视内容拦截率 99.97% ,漏标率<0.05%
  • 版权合规

    • 确保原始数据授权合法,标注成果权属清晰

标准意义与价值

  1. 统一规范:解决标注行业 "无标可依"、质量参差不齐问题
  2. 质量提升 :量化指标确保数据集高一致、高准确、高均衡
  3. 安全可控:强化数据安全、隐私保护与内容合规
  4. 产业协同:便于供需双方对接、降低沟通成本、支撑 AI 产业健康发展
相关推荐
霸道流氓气质4 小时前
SpringBoot中集成LangChain4j+阿里百炼平台实现AI对话记忆功能、对话隔离、对话持久化到Redis功能
人工智能·spring boot·redis
@不误正业5 小时前
大模型注意力机制源码解析-从MQA到MLA全链路演进与PyTorch实现
人工智能·pytorch·python
come112345 小时前
最新的 gpt 5.4 和 claude 4.7 模型为什么更好用
人工智能·gpt
WYiQIU5 小时前
宇树科技Web前端岗(AI方向),这不算泄题吧......
前端·vue.js·人工智能·笔记·科技·面试·职场和发展
Li emily5 小时前
外汇api接口实践:实时汇率与历史数据获取
人工智能·python·api·fastapi
甄心爱学习5 小时前
【项目实训】法律文书智能摘要系统3
前端·人工智能
TheRouter5 小时前
AI 不会消灭软件工程,它只会消灭低维的软件工程
人工智能·软件工程
冲浪中台5 小时前
从追逐技术到回归业务本质,吃互联网红利罢了
服务器·前端·人工智能·低代码
3DVisionary5 小时前
升维洞察:DIC全场视觉检测如何重塑力学测试的“时空秩序”
人工智能·计算机视觉·视觉检测·动态测量·dic技术·xtdic·结构疲劳演化
做个文艺程序员5 小时前
Claude Skill 进阶:多文件结构、脚本集成与触发优化
人工智能·python·开源