从0开始全面认识高质量数据集建设指南

摘要 :本文系统梳理中国高质量数据集建设的完整知识体系,涵盖国家政策导向、TC609技术标准、

治理架构与共建共治模式、平台工程能力,以及端到端数据工程实施路径(需求调研、数据规划、

数据采集、预处理、标注全链路),是面向 AI 工程师、数据产品经理和企业数字化负责人的综合参考手册。


第一部分:背景现状与 TC609 标准体系

摘要 :本文综合梳理国家政策导向、产业数据现状、TC609技术标准体系及工程实践方法,

系统呈现中国高质量数据集建设的完整图景。


一、产业现状:数据大国的阶段性成就

据2025年12月30日全国数据工作会议披露(新华社报道),我国数据赋能人工智能成效显著:

核心指标 数值
高质量数据集数量 10万个
数据集总规模 890PB(拍字节)
参与部委数量 国家数据局联合 26个部委
遴选链主单位 72家
高质量数据集建设任务 140项
重点覆盖领域 科学、教育及具身智能等创新领域

国家数据局局长刘烈宏表示,2025年国家数据局围绕制度、设施、场景、市场和产业

五大维度增强体系化攻坚能力,打出数据要素市场化配置改革"组合拳",数据要素市场化

价值化进程明显加快,数据领域国际合作取得积极成效。

数字经济核心指标

  • 算力资源 :全国80%的智算资源在八大枢纽节点汇聚;可监测算力资源达85.7万PFlops,
    可调度算力资源达9.6万PFlops
  • 数据登记:全国一体化公共数据资源登记体系基本建立,实现省域全覆盖,登记量超13万项
  • 专利授权 :2024年我国数字经济核心产业发明专利授权量居全球第一
  • 数字经济增加值:2025年预计达49万亿元,占GDP比重约35%
  • 数据标注:7个城市承担数据标注试点任务,标注规模超85PB,服务260个模型研发
  • 国家标准 :国家数据局指导全国数标委研制48项国家标准和技术文件,
    牵头发布元数据、数据质量等4项国际标准

三、标准体系:TC609 四项核心规范

全国数据标准化技术委员会(TC609)于 2025年8月29日 同步发布并实施四项高质量

数据集核心技术文件,构建"建什么---怎么建---如何分类---如何评测"的完整标准闭环:

标准编号 文件名称 英文对照
TC609-5-2025-01 高质量数据集 建设指南 High-quality dataset---Construction guidelines
TC609-5-2025-02 高质量数据集 格式要求 High-quality dataset---Format requirements
TC609-5-2025-03 高质量数据集 分类指南 High-quality dataset---Classification guidelines
TC609-5-2025-04 高质量数据集 质量评测规范 High-quality dataset---Specification for quality evaluation and test

TC609-5-2025-01 建设指南

建设指南规定了高质量数据集从需求调研到发布验证的全流程建设规范,是四项标准的

基础性文件,为数据集工程建设提供方法论框架。

TC609-5-2025-02 格式要求

格式要求规定了数据集的存储结构、元数据规范、文件命名、交付物格式等技术细节,

确保数据集在不同平台与工具链之间的互操作性。

TC609-5-2025-03 分类指南

分类指南建立了通识数据集、行业通识数据集、行业专识数据集三级分类体系,

为数据集的定位、建设目标与使用范围提供分类依据。

TC609-5-2025-04 质量评测规范

质量评测规范定义了数据集质量评测的指标体系、评测流程和测试方法,

保障数据集在投入使用前通过标准化质量门控。


四、数据集分类:三级分层体系

根据TC609分类指南,高质量数据集按知识范围与专业深度划分为三大类型:

维度 通识数据集 行业通识数据集 行业专识数据集
核心定位 面向公众,基础知识 衔接通用与行业,基础支撑 聚焦细分,深度专业核心
知识内容 常识、原理、事例 行业共性理论、规范 内部核心专业实践积累
面向人群 社会公众,无门槛 行业从业者,有一定要求 核心专家/研发,极高要求
数据来源 网络公开、百科,时效极低 权威机构、文献,时效中等 内部系统、专属,时效极高
标注人员 普通人员,敏感度低 专业人员,敏感度低 资深专家,敏感度显著高
使用权限 公开可用,覆盖极广 公开可复用,覆盖中等 内部限定,严格审批,覆盖窄
典型案例 Kaggle通用数据集、通用模型基座 政务通、地址标准化数据 地铁监测、政务热线智能办数据

五、高质量数据集与人工智能的关系

高质量数据集是人工智能系统三大核心要素之一,与算力、算法共同构成AI能力的底层支撑。

三大要素各司其职:

  • 数据是基础:决定AI的知识天花板,挖掘数据价值、提供训练素材
  • 算力是引擎 :加速训练与推理,影响学习速度与规模;
    高质量数据集同步提升处理规模、扩大算力需求
  • 算法是灵魂 :指引学习路径与效率;
    数据集最终决定算法所形成模型的实际表现

高质量数据集支撑的核心AI能力包括:数据分析、智能预测、因果推理

高质量数据集的核心特征体现为:规模大、种类多、质量好


六、建设流程:场景驱动六步法

高质量数据集的工程建设遵循 "场景驱动 + 数据驱动" 双轮模式。

总主线:场景 → 模型 → 数据集识别规划 → 数据集实施 → 评测 → 上架使用

Step 1|需求调研

  • 确定智能场景所需数据范围、内容等要素
  • 检查数据集所需数据质量的可使用性
  • 构建数据集所需的数据质量模型

Step 2|数据规划

  • 整理形成数据集集合
  • 对数据集进行分类与内容定义

Step 3|数据采集

  • 结合预期数据源确定采集方式
  • 测试并在必要时改进数据采集方法
  • 测量并在必要时持续提升采集数据质量

Step 4|数据预处理

  • 数据转换、数据抽样
  • 数据验证、特征创建
  • 数据清洗、特征选择、数据聚合与信息融合

Step 5|数据标注

  • 明确数据标注规程规范
  • 确定所需的技能和资源
  • 过程监测与质量管理

Step 6|发布验证

  • 评估所训练模型性能是否达到预期
  • 验证数据集是否满足预期要求
  • 若未达预期,将反馈至相关方进行迭代优化
  • 根据优化情况,再次进行模型验证以确认数据集满足要求

📋 数据集目录视角:数据集生成沉淀、持续迭代优化

🏛 数据集管理视角:过程组织管理、成果治理监管


七、数据集识别:场景驱动模型

在具体项目中,数据集识别规划以"XX智能场景"为起点,逐步推导所需数据集。

规划逻辑

  1. 场景需要什么模型?→ 确定模型类型(训练/微调/推理)
  2. 模型需要什么数据?→ 识别数据集需求
  3. 建什么数据集?→ 明确数据集定义与工程交付

数据集定义要素示例(以安全隐患识别为例)

要素 内容
数据集名称 安全隐患识别数据集
使用场景 用于训练安全隐患小模型
数据集分类 应急 / 安全监管 / ...
数据集分级 一般数据(安全合规级)
数据集内容描述 特征、标签 / 问答对 等

工程交付内容

  • 描述信息:说明文档
  • 数据样例:样例图片、标注信息等
  • 数据集文件:样本数据、元数据
  • 使用方法:调用方式(可直接用于Python调用,与数据科学工具链打通)

八、典型场景:交通行业数据集全链路实践

以交通行业为例,按模型生命周期(训练→微调→应用)划分数据集需求:

8.1 训练阶段

小模型训练(机器学习含深度学习)

场景 数据集描述
场景1:未来1小时交通流量预测 公路车流量预测集(结构化数据组合);T0特征:天气特行、日期特旅、上游各模块汇入流量;T1标签:1小时后实际车量
场景2:公路养护病害识别 公路病害图片数据集(图片标注数据)

大模型预训练(深度学习)

场景 数据集描述
场景3:大语言基础模型 图书、期刊、维基百科(原始文本)
场景4:多模态基础模型 视频、音频资料(图像-文本对)

参考平台:魔搭社区、Kaggle

8.2 微调阶段

大模型微调(指令微调)

场景 数据集描述 参考平台
场景5:公路养护垂直专业大模型 领域专术知识、业务情景风格问答、思维链提集(COT)等 HuggingFace

8.3 应用阶段

模型推理输入(基于上下文的学习,作为提示词+用户问题)

场景 数据集描述 参考平台
场景6:治超执法问答场景 交通运输执法知识库(语料库) 魔搭社区
场景7:交通事件处置方案生成 交通事件处置思维链数据集(COT) Kaggle

参考资料

  1. 国家发展改革委等六部门《关于促进数据产业高质量发展的指导意见》,
    发改数据〔2024〕1836号,2024-12-28
  2. 新华社《我国建成高质量数据集超10万个,规模超890PB》,2025-12-30
  3. TC609-5-2025-01 高质量数据集 建设指南,全国数据标准化技术委员会,2025-08-29
  4. TC609-5-2025-02 高质量数据集 格式要求,全国数据标准化技术委员会,2025-08-29
  5. TC609-5-2025-03 高质量数据集 分类指南,全国数据标准化技术委员会,2025-08-29
  6. TC609-5-2025-04 高质量数据集 质量评测规范,全国数据标准化技术委员会,2025-08-29

第二部分:高质量数据集治理体系与共建共治模式

摘要 :本文聚焦高质量数据集的治理架构设计,系统阐述"共建共治"管理模式、

标准体系建设路径、平台工程能力以及目录运营机制,为数据集规模化落地提供完整参考。


一、治理总体框架:统一标准引领双轨并行

高质量数据集的治理体系以统一标准 为顶层引领,形成"源头生产管理"与

"数据集中监管"双轨并行的协同格局,最终实现协同生产、集中监管、共享复用

三大目标。

1.1 源头生产管理

源头生产管理由各业务单位主导,核心流程为:

复制代码
标准化工具 → 采集、规划 → 入规则 → 业务单位
标准化工具 → 采集、规划 → 预处理、标注 → 全流程生产
                    ↓
         数据自测、问题排查、闭环处理
  • 业务驱动:以业务数据需求和数据服务业务为双引擎
  • 工具支撑:采用标准化工具完成从采集规划到预处理标注的全流程生产
  • 质量闭环:通过数据自测和问题排查实现生产质量的持续闭环改进

1.2 数据集中监管

数据集中监管由信息化(智慧中心)部门统筹,形成三级质控链路:

复制代码
统筹协调 → 集中管理 → 质量核验
        ↓
标准符合性检测 → 全流程节点抽检
        ↓
全流程节点抽检 → 成果质量复核
  • 组织保障:统筹协调数据集的组织管理
  • 标准检测:开展标准符合性检测,保障数据集符合统一规范
  • 全程抽检:对全流程关键节点实施抽检,完成成果质量复核

二、统一标准体系:告别"先建后治"

传统数据建设模式存在"先建后治、边建边改"的顽疾,导致大量数据集需要反复返工。

新模式通过统一标准前置,从源头杜绝低质量数据集产生。

三类核心标准

统一标准体系由三根支柱构成,分别约束数据集建设的不同阶段:

标准类型 核心内容 覆盖对象
数据集目录标准 分类编码、目录架构 业务单位
质量管理标准 质量核验规则 技术团队
使用管理标准 使用权限、迭代流程 监管部门

三类标准形成统一的规则体系,确保业务单位、技术团队、监管部门在同一框架下协同运作,

共同构筑坚实基础


三、建设路径:四步法实现规范化→流程化→自动化

高质量数据集体系的建设分四个核心步骤推进,最终实现从手工作坊到自动化流水线的跨越。

Step 1|建立一套高质量数据集建设标准

覆盖"建什么、怎么建、如何用"几个关键阶段的标准,指导高质量数据集从规划到落地。

Step 2|搭建一套高质量数据集生产与管理工具

  • 生产工具:实现对数据集的采集、预处理、标注及发布服务的全过程生产
  • 管理工具:提供对数据集的集中管理支撑
  • 服务工具:提供统一上架开放服务

Step 3|沉淀一个高质量数据集目录

  • 厘清智能场景的需求
  • 整理归纳形成面向"模型"的数据集目录
  • 各单位根据数据集管理职责,分工沉淀高质量数据集

Step 4|形成一套高质量数据集的管理机制

  • 明确高质量数据集的管理分工
  • 形成数据生产、问题处理、数据集持续优化的工作闭环

🏁 建设总目标:规范化 → 流程化 → 自动化


四、共建共治模式:四要素协同运作

按照"共建共治模式":统一标准、平台共建、源头生产(业务单位)、集中监管(智慧中心)

四要素相互支撑,形成完整的治理闭环。

4.1 统一标准(What & How)

明确建什么、怎么建、如何用,确保在发展初期即保持高标准要求,避免"先建后治":

  • 数据集目录标准
  • 质量管理标准
  • 使用管理标准

4.2 数据集中监管(智慧中心负责)

信息化部门进行组织和数据集集中管理,确保产出的数据集对人工智能场景有效、有用,

保障高质量要求:

  • 数据集建设工作组织
  • 标准符合性检测
  • 经理者统筹协调

4.3 源头生产管理(业务单位负责)

各业务单位结合梳理统数据集,采用工具生产高质量数据集:

  • 配合梳理高质量数据集
  • 高质量数据集的生产
  • 数据自测及问题处理

4.4 平台共建(工具平台支撑)

对数据集的生产工具(采、测)和管理服务工具,提供生产、标准符合性检测及开放服务:

工具类型 功能
高质量数据集供给工具 数据集采集、生产全流程
数据集目录内容管理工具 目录维护与内容管理
质量检测工具 标准符合性自动检测
开放服务工具 统一上架与对外开放
发展情况看板 可视化监控数据集建设进展

五、行业架构:交通行业高质量数据集体系

以交通行业为例,高质量数据集体系采用三层架构设计:使用场景层、行业高质量数据集层、

数据与模型资源层。

5.1 使用场景层(顶层)

应用方向 典型场景
人工智能+交通行业应用 AI+指挥、AI+养护、AI+公众服务
数据要素公共流通 交通行业通用语料数据集、交通安全识别标注数据集

5.2 行业高质量数据集层(核心层)

以**AI数据工程(业务单位建设)**为核心,双向贯通生产流程与管理流程。

核心数据集类型

  • 统一高质量数据集目录、行业专识数据集
  • 风险隐患标注数据集、事件处置思维链数据
  • 行业通用语料数据集、突发事件预案
  • 应急资源分布图、通用数据、危化品介绍知识、历史气象数据

支撑系统:高质量数据集管理系统(生产工具、管理工具、发布工具)

5.3 数据与模型资源层(底层)

资源类型 说明
数据中台 主数据、专题库、指标库等
模型服务平台 大小模型(基础模型、行业模型)
其他知识平台 个人、部门、互联网知识资源

六、标准体系:四维度覆盖全生命周期

高质量数据集建设标准体系从建什么、怎么建、如何用、持续提升 四个维度构建,

对应形成四项核心标准文件。

维度 核心内容 对应标准文件
建什么? 建设框架、核心内容定义 《高质量数据集目录建设标准》
怎么建? 关键环节技术要求、生产过程指导 《高质量数据集质量管理标准》
如何用? 使用过程规范、申请及使用流程 《高质量数据集服务使用规范》
持续提升 长效运营管理、价值释放 《高质量数据集管理制度》

四项标准文件形成层层递进的完整规范链条,从目录建设到管理制度,全面覆盖数据集

全生命周期管理需求。


七、管理子系统:三工具支撑目录中枢

高质量数据集管理子系统以高质量数据集目录为核心枢纽,由三类工具相互配合运转。

服务工具(数据集发布)

  • 数据集服务申请、开放流程管理
  • 对外发布与订阅服务

生产工具(数据生产加工)

  • 采集、预处理、标注、存储、自测
  • 生产的标准化过程规范

管理工具(数据集监管)

  • 目录建设情况监控、发展态势分析
  • 标准符合性检测、协同治理流程

三类工具通过高质量数据集目录 这一中枢节点实现数据流转与状态同步,

形成"生产→入目录→发布→监管"的完整闭环。


八、平台架构:基采存管用五层能力体系

数据集平台采用基、采、存、管、用五层架构设计,自下而上构建完整的数据能力栈。

各层能力详解

基础能力层(基)

能力域 功能
存储管理 分布式存储资源统一调度
网络管理 数据传输网络保障
算力调度 模型训练与推理算力分配
模型服务 基础模型服务化封装
权限管理 多级权限体系
安全管理 数据安全与合规管控

数据采集层(采)

支持多分异构数据,进行一二集:

  • 数据库对接、视频网关采集、数据爬虫、实时上传、数据回流

统一接入与存储层(存)

支持多非泽化数据并平到台出行统一存储及管理,支持主流存储引擎:
Ceph / Minio / ES(Elasticsearch) / Nebula Graph

数据管理层(管)

提供未加工/已加工数据处理功能,支持多数据源:

  • 样本预处理:图像增强、文本清洗、音频增强、视频增强
  • 知识预处理:文档清洗、文档解析、文档目录、元数抽取、图片解析、知识提要
  • 样本加工(数据标注):图像标注、文本标注、音频标注(智能标注,降低标注成本)
  • 知识加工:知识抽取、关系提取、知识补全、知识融合(构建知识语境,支持知识关联)

辅助工具:数据集目录、元数据管理、样本库、原始库、知识图谱、知库库

供给服务层(用)

  • 训练数据集供给:蓝翼大模型、水运重重域大模型、轨交索域大模型......
  • 知识推理供给:公路应用、水运应用、管理应用......(供给服务 + 知识服务双轨输出)

九、数据集目录:四维分类标签体系

高质量数据集目录是整个数据集体系的"索引枢纽",对每个数据集从四个维度进行

标准化描述与分类。

四维分类标签

分类维度 可选值示例
业务域分类标签 一级业务分类:公路交通、水路交通、道路运输......
数据集分级类别 一般数据、重要数据、核心敏据
数据集知识应用分类 通识类、行业通识类、行业识类、行业专识类
服务模型用途分类 模型预训练、模型微调、模型推理使用

目录元数据三要素

  • 内容及样本描述:内容摘要、关键词
  • 数据模态分类:产生更新、标签描述
  • 质量特征:质量特性、均衡性等

十、运营管理:数据集全生命周期监控

高质量数据集管理系统提供从目录维护到发布上线的完整运营管理能力。

核心管理模块

数据集目录管理:目录导航、搜索;数据集详情、快速操作

数据集登记管理:数据集信息与编目配置;数据集数据管理

数据集标签管理:自定义置标签;数据集标签打标

数据集质量检测管理:检测规则集配置、检测智能体调度、检测任务管理、检测报告输出

数据集发布管理

  • 生产发布到目录(待检测)
  • 检测发布到超市(符合后对外发布)

数据集运行管理:数据集权限配置、运行日志、流程审批、问题记录

数据集发展态势看板:总体数量、使用情况、质量情况、问题情况全方位呈现


十一、数据服务超市:目录到消费的最后一公里

数据集目录通过数据服务超市对外开放,形成从生产到消费的完整闭环。

数据集目录分类导航

文本类 :文本分类、关系抽取、零样本学习、机器翻译、词分类、智能对话、

文本生成、表格问答、句子相似度、多语言、完形填空、摘要总结、问答

图像类 :文字识别、姿态估计、图像分类、图像打标、通用检测、图像分割、

图像编辑、图像生成、图像抠图、虚拟试衣、行人重识别、人脸2D关键点、

人体2D关键点、人像卡通化

音频类:语音识别、语音合成、语音信号处理、音频分类、音频生成、语音端点检测

典型数据集样例

样例1:对话-百科(中文)训练集

复制代码
提供者:qiaojiedongfeng
标签:智能对话、问答,10k-1m等5个标签
协议:Apache License 2.0 / ACGN
规模:6,571下载 / 58.90MB / 2024-10-14更新

格式(jsonl文件):
{"question": "你喜欢做饭吗?", "answer": "是的,我喜欢尝试新的食谱。"}
{"question": "你最喜欢的颜色是什么?", "answer": "我最喜欢的颜色是蓝色。"}
{"question": "你喜欢户外活动吗?", "answer": "是的,我喜欢徒步和骑行。"}
{"question": "你最喜欢的书是什么?", "answer": "我最喜欢的书是《哈利·波特》系列。"}

样例2:数据堂-76,184张扫地机器人视角液体污渍数据

复制代码
提供者:DatatangBeijing
标签:图像检测、通用检测,10k-1m / 100-10k
协议:Apache License 2.0
规模:160下载 / 12.03MB / 2024-04-29更新

格式(YOLO文件):
1 0.42734375 0.65546875 0.4578125 0.4328125
1 0.86328125 0.8484375  0.1109375 0.046875
2 0.55859375 0.34765625 0.8828125 0.221875
2 0.5640625  0.075      0.871875  0.15

数据服务超市订阅流程

复制代码
高质量数据集目录
      ↓
数据服务超市(订阅渠道)
      ↓
  用户按需订阅

数据服务超市作为统一的数据集消费入口,基于高质量数据集目录提供检索、预览、

申请、下载等全链路订阅服务,打通数据生产与数据使用之间的"最后一公里"。


第三部分:端到端建设流程------需求调研与数据规划

简介: 本文系统阐述高质量数据集建设的端到端闭环流程,涵盖需求调研、数据规划、标准制定、工程实施等八大关键阶段,强调"业务驱动、标准先行、协同共建",聚焦从AI场景需求出发,通过漏斗式筛选、供需确认与分类分级编目,实现数据资产化、服务化与价值最大化。

上一篇中,我们了解了高质量数据集建设的核心管理模式、具体目标与支撑其实现的总体技术架构,从制度、标准、工具三个层面构建了协同共建共治的完整闭环。然而,一个健全的体系不仅需要宏观的设计,更需要微观的精耕细作。当标准与工具就位,如何确保最终产出的数据集本身具备支撑模型训练所需的高质量特性?这一篇,我们聚焦到端到端的全流程,详细阐述每个阶段具体要做的事情。

以数据集的全生命周期管控为目标,从现状需求分析识别、数据规划、标准制定、数据工程(采、处、标、存、测等)、编目上架、数据治理监管、发布应用。最终实现数据集的开放与供给,对内支撑算法模型的迭代优化,对外提供市场化的服务,以实现数据集价值的最大化。

如上图所示,一个高质量数据集从诞生到交付使用,是一个包含八个关键阶段的、循环迭代的端到端闭环流程。每个阶段都承载着将业务需求转化为可靠数据资产的具体任务。下面,我们将逐一拆解这八个阶段的具体工作内容与核心产出。

该阶段的核心目标,是基于场景驱动,业务部门根据调研模板,从AI模型 视角整理对数据的依赖关系,按步骤漏斗式分析识别筛选形成高质量数据集清单。

第一步:现状数据摸底

现状数据摸底的核心,在于将分散、隐性的数据资源,系统性地转化为一份结构清晰、可评估的资产目录。通过组织技术团队与数据管理部门协同工作,深入盘点各业务系统、数据库及数据仓库中的现有数据资产,并依据标准化模板,详细记录每个数据项的业务归属、具体来源(如表名或接口)、内容描述、格式结构、质量状况(如完整性、准确性、时效性)、更新频率、数据规模、存储方式及已有管理规范,为后续的需求匹配提供清晰的图谱。

严格上来说呢,这一步其实算是基础工作,但是据观察很多单位连这一块都没做好,而且没做好的原因竟然出奇的一致:其一,缺乏跨部门协同的有效机制 ,技术团队与业务部门之间对数据资产的理解存在鸿沟;其二,没有坚持使用统一的标准化模板进行盘点 ,导致盘点结果散乱、无法后续整合;其三,将盘点视为一次性项目而非持续更新的过程,使得资产目录很快过时。

不过,实话实说,这一步能够做到大而全的单位少之又少。更务实的策略是 "抓大放小、由点及面 " ,即不必强求在项目初期一次性完成所有数据资产的完美盘点,而是优先聚焦于与核心业务场景紧密关联、或近期有明确智能化需求的高价值数据域 ,从小切口入手,明确与相关场景有关的已有数据基础即可,这也引出了下面一个步骤。

第二步:拆解数据,明确智能场景数据需求

根据各部门提出的智能化场景需求,我们上一步已经大致梳理了已有的数据基础,心里好歹有了个底,这一步就是需要将每个智能场景(如隐患识别、智能问答等)拆解为具体的数据依赖项,明确"需要什么数据"。

通常,我们会按照上述表格样式进行归纳整理,主要包含智能场景描述、需要的数据(样例)、数据描述、数据来源、数据类型、用途、要求等等。

  • 智能场景描述 :用一段话清晰地阐述该场景要解决的业务问题、实现的目标以及预期价值。如一个隐患图片比对智能体,则应该描述为:"实现对隐患排查数据质量和隐患整改真实性的自动化批量比对分析,帮助省厅监管人员快速发现问题数据,提升监管的能力"。这段描述是后续所有数据拆解的根本依据
  • 需要的数据(样例):逐项列出为实现该场景所必需的具体数据项或数据实体,每个数据项应尽可能具体,如列出:"巡查的隐患图片"、"巡查的隐患数据"、"场所巡查隐患处置痕迹信息"等。如果数据形式复杂(如特定格式的样本文件),可作为附件提供。
  • 数据描述:对"需要的数据"中列出的每一项数据,进行业务含义上的补充解释。目的是确保业务和技术理解一致。例如,对于"巡查的隐患数据",描述为"工作人员填写的隐患内容",明确了其业务来源和内容性质。
  • 数据来源:明确指出每个数据项当前存储或产生的具体业务系统、数据库或接口名称,这是数据可获取性的关键;如果数据来源不同,需分别准确填写。
  • 数据类型:标明每个数据项的基本技术形态或格式。主要分类如"图片"、"结构化"(指数据库表、Excel等行列规整的数据)、"文本"、"音视频"等。这直接决定后续的数据处理技术选型。
  • 用途:说明该数据项在智能场景中的具体作用或使用目的。例如,是用于"小模型训练"、"规则引擎分析"、"生成报告"还是"可视化展示"。这直接关联到对数据质量、时效性、样本量的不同要求。
  • 数据要求 :针对每个数据项,提出具体的、可衡量的质量或规格要求。此字段至关重要,且往往需要深入讨论后填写。这是将模糊需求定量化的关键一步。例如:对"巡查的隐患图片":可要求"分辨率不低于1920x1080,需包含隐患部位特写与全景两张,图片需附带时间、地理位置元数据";对"巡查的隐患数据":可要求"字段完整率需达100%,隐患等级分类准确率需达99%以上";对"处置痕迹信息":可要求"数据更新延迟不超过1小时,状态字段必须包含'待整改'、'整改中'、'已完成'、'已复核'"。
  • 其他:填写上述字段未能涵盖的额外补充信息或特殊说明。例如,数据获取的权限审批流程、数据的敏感等级、是否有已知的数据质量问题等。

形成了这份表之后,后续不管是数据对接还是问题排查或者说是定责都会方便许多了。

第三步:明确系统建设完成后,可沉淀产生的新数据

这一步是建议大家去做的,因为智能体场景的建设必定会产生新的数据结果 ,如果条件允许的话,可以结合信息化建设规划,识别并定义那些在新建或升级业务系统后,能够被规范化沉淀下来的新的数据资源。这样一来,我们所构建的就不再是一个静态的数据供应体系,而是形成了一套推动数据资产持续积累、反哺业务智能升级的长效化机制。

举个容易理解的例子:智能场景(如隐患识别模型)在运行过程中,会持续产生新的数据结果,例如模型的预测结果、人工复核的反馈、处置效能的统计等,这些数据本身是优化模型、评估业务价值、发现新规律的宝贵资源是十分必要的,所以,在规划一个智能巡检系统时,就理应同步设计好"标准化巡检记录(含多媒体)"、"设备健康度时序日志"等数据资产的产出规范

这一步的深层价值在于构建一个自我增强的数据飞轮。每一轮新系统的上线,都会依据第三步的规划,向数据资产目录中注入新的、标准化的数据燃料。这些新数据不仅能满足现有需求,更可能催生出如"模型效果持续监控"、"数据驱动流程优化"等新一代的智能场景,进而反馈并更新第二步中的需求清单。如此循环,数据资产得以持续积累与增值,智能化应用也因此获得源源不断的动力,真正实现从项目化建设到体系化运营的长效演进。

第四步:供需关系确认

在完成了前三步之后,我们手中已经掌握了自己理解的数据资产 ,但是这个资产有没有用,还是得业务部门二次确认,所以这一步我们的核心任务就是再次组织跨部门的协同会议,识别并筛选出真正有建设价值的"潜在高质量数据集 ",并厘清各部门在其中扮演的供给方需求方角色,明确权责关系。

会议主要要确认数据项细节、供给与消费关系、筛选与优先级等等。

城市指挥中心大脑为例,我们需要构建一个**《指挥中心高质量数据集-供需明细表》**,这一步骤通过组织由指挥中心(需求方)、各业务数据源部门(供给方,如公安、消防、医疗、交通等)及数据管理牵头部门共同参与的专题研讨会来完成。会议将围绕指挥中心在第二步中提出的具体智能场景(例如"城市应急事件实时融合指挥视图")展开,核心是逐项确认并填充明细表中的关键信息:

  • 供给与消费关系确认:这是明细表的核心输出。对于每个确认可获取的数据项,将明确记录需求方(消费部门,此处即指挥中心);供给方(生产部门,例如,实时警情数据由公安情报部门供给,消防资源状态由消防指挥系统供给,120急救车轨迹由卫健委信息中心供给)。
  • 数据项细节确认:针对"融合指挥视图"所需的具体数据(如警情事件、消防资源位置、急救车状态、道路拥堵指数),会议将逐项核实其数据现状和数据规划中的数据存在情况、具体形态、可获得性以及需治理改造的点。例如,公安部门需确认警情数据的实时接口能力与字段,交通部门需说明拥堵指数的更新频率与覆盖范围等,明确字段清单、更新频率(如秒级、分钟级)、交付方式(如服务接口、数据交换平台)、质量标准(如数据延迟<30秒)等,形成跨部门共识并记录在案。
  • 筛选与优先级初判 :这里和第一步数据摸底时说的是一个意思,并非所有数据需求都能无条件满足,要基于实现的复杂性、成本、业务价值的紧迫性,进行初步筛选与排序。例如,指挥中心提出的"全量社会监控视频流实时接入"需求,可能因成本与技术挑战被调整为"重点区域监控视频智能摘要与报警事件推送",从而筛选出当前阶段最可行、最紧迫的高价值数据集组合

通过此会议产出的《指挥中心高质量数据集-供需明细表》,将原本分散、模糊的数据需求与供给,转化为一份权责清晰、细节明确、经过跨部门背书的合同文件

第五步:形成高质量数据集清单

完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据集清单

该环节主要目标是完成高质量数据集的编目化及内容设计,基于筛选确认的高质量数据集清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据集内容规范**《高质量数据集目录建设标准》**,为后续的数据生产加工与智能应用提供清晰、统一的执行依据。

在正式开展每个数据集的详细规划前,需要先明确一套贯穿始终的顶层设计,确保所有数据集在框架、分类和编目上保持一致,避免后续出现 "数据孤岛" 或标准不一的问题。这里可以参考从0开始全面认识高质量数据集建设(1)中提到的建设指南和政策依据,规范包括:

  • 高质量数据集内容框架
  • 高质量数据集分类体系
  • 高质量数据集编目要求

然后重点来了,针对于上述的高质量数据集清单 ,我们其实是可以进一步拆分分类的,比如说按照从0开始全面认识高质量数据集建设(1)中提到的可以拆分为通识类数据集、行业通识类数据集、行业专识类数据集,但是一般而言,内部建设智能体场景时,只有行业通识类数据集和行业专识类数据集

关于这两类数据集,我们可以抽象出一套构建方法,包含设计实施两部分:

阶段划分 一级模块 二级模块 模块说明
设计阶段 基本信息 数据集名称 数据集的唯一标识名称
内容介绍 对数据集内容、用途的简要说明
分类分级标签 用于数据分类、分级管理的标签体系
适用场景 业务场景描述 数据集所支撑的具体业务场景说明
模型阶段场景 数据集在AI模型不同阶段(如训练、验证、推理)的应用场景
数据内容信息 样本元数据描述 对数据集样本的元数据信息(如字段、格式、规模等)进行详细描述
实施阶段 源头管理信息 来源系统 数据集原始数据所来自的业务系统或数据源
管理单位 负责数据集管理、维护的责任单位
生产过程信息 采集数据的构成、质量特征及其他加工过程信息 描述数据集采集方式、质量标准、加工处理流程等实施层面的信息

完成设计与实施两个阶段的所有工作后,我们将最终输出一份 《高质量数据集目录建设标准》。这个目录需要包含下面最最三个关键的部分:

  • 基本信息编目:对数据集名称、分类分级、来源单位、使用场景等描述性和管理性信息进行挂载管理。
  • 设计数据内容结构:界定数据集的特征属性、标签值、 参考的主数据等,明确数据的详细内容定义。
  • 明确生产加工要求:对每个数据集的采集质量要求、采集方式、预处理加工、标注输出格式等进行说明。

我们还是以城市指挥中心大脑为例,结合其核心业务场景(城市应急事件实时融合指挥、日常运维调度、异常情况预警研判等),具体拆解这三个关键部分的落地内容。

基本信息编目

城市指挥中心大脑作为城市治理的"中枢神经",其数据集覆盖多部门、多场景,基本信息编目的核心是实现"每一份数据都有明确身份、明确归属、明确用途",避免多部门协同中的数据混淆、责任不清问题。

数据集名称与编码

采用"城市指挥中心-业务主题-数据类型-版本 "的统一命名规范,编码采用"CZ-ZH-业务编码-数据类型编码-版本号",确保唯一性和可读性,示例如下:

  • 数据集名称:城市指挥中心-应急事件融合数据-结构化数据-V1.0
  • 数据集编码:CZ-ZH-YJ-01-V1.0(CZ-ZH代表城市指挥中心,YJ代表应急事件,01代表结构化数据,V1.0为版本)
  • 补充说明:版本号随数据更新、规范优化同步升级,每次升级需标注更新内容和更新时间,确保可追溯。

分类分级管理

全部归入"行业专识类数据集"(城市指挥中心大脑场景具有极强的政务治理专业性,数据仅适配指挥中心核心智能场景,复用范围限定在城市治理领域),下属细分分类按业务主题划分,如应急事件类、交通运行类、公共安全类、医疗救援类等,结合政务数据安全规范,分为三级,适配不同权限管控需求

  • 绝密级:涉及城市核心安全的数据,如应急事件核心涉密信息、重点区域监控数据(如党政机关、交通枢纽),仅对指挥中心核心运维人员、应急处置人员开放;
  • 机密级:涉及民生隐私但需用于指挥调度的数据,如120急救车轨迹、警情详细信息,对指挥中心相关业务科室、协同部门(公安、医疗)授权开放;
  • 秘密级:可内部共享、无敏感信息的数据,如城市公共设施点位数据、日常运维调度记录,对指挥中心全体工作人员、相关协同部门开放。

来源单位与责任链路

结合前文供需关系确认环节的协同部门,明确每个数据集的供给方(来源单位)、管理方(责任单位),建立"来源可追溯、问题可追责"的链路,示例如下:

使用场景与价值描述

明确每个数据集支撑的城市指挥中心大脑智能场景,避免数据闲置,同时量化其业务价值,示例如下:

  • 使用场景:支撑"城市应急事件实时融合指挥视图""应急事件智能研判预警""多部门协同调度"三大核心场景,用于AI模型的实时推理、事件态势分析、资源调度匹配。
  • 价值描述:整合多部门应急相关数据,打破部门数据壁垒,实现应急事件的实时可视化呈现、快速研判(缩短研判时间30%以上),支撑指挥中心快速下达调度指令,提升城市应急处置效率和协同能力,降低应急事件处置成本。

设计数据内容结构

城市指挥中心大脑的核心需求是"数据融合、智能研判",因此数据内容结构设计需兼顾"各部门数据的兼容性"和"AI模型的适配性",明确每一份数据的特征、标签和参考标准,避免因数据口径不一、定义模糊,导致融合失败、模型研判不准。结合其核心数据集(以应急事件融合数据集为例),具体设计如下:

特征属性定义

以"应急事件融合数据集"为例,明确每个字段的业务含义、数据类型、约束条件和示例值,确保公安、消防、卫健委等多部门提供的数据"同源、同径、同标",示例如下:

标签与标注体系

城市指挥中心大脑的AI模型(如事件研判模型、异常预警模型)需要标准化的标签支撑,因此需针对核心数据集设计统一的标签体系,以应急事件融合数据集、监控视频数据集为例:

  • 应急事件融合数据集标签:
    • 标签类别:事件类型标签(火灾、交通事故等)、事件等级标签(1-4级)、处置状态标签(待处置、处置中、已完成、已复核)、涉及资源标签(警车、消防车、救护车等)。
    • 标注规则:标签取值严格遵循预设范围,不可自定义;多标签关联时,需确保逻辑一致(如"火灾"事件需关联"消防车""消防员"等资源标签)。
  • 重点区域监控视频数据集标签(核心级数据):
    • 标签类别:异常行为标签(聚集、斗殴、违规用火)、异常物体标签(明火、烟雾、障碍物)、人员/车辆标签(执勤人员、急救车辆、工程车辆)。
    • 标注规则:标注精度需达到95%以上,明火、烟雾等关键异常标签需标注具体位置;标注工具采用指挥中心统一指定的视频标注工具,输出格式为COCO格式,便于AI模型调用。

主数据与参考标准

结合城市治理相关国家标准、地方规范,明确指挥中心数据集参考的主数据和标准,避免多部门数据口径混乱,核心参考如下:

  • 主数据参考:行政区划主数据(采用当地政务统一的行政区划代码)、应急事件类型主数据(遵循《突发事件分类与分级标准》)、公共服务设施主数据(采用城市政务地理信息平台统一数据)。
  • 参考标准:
    • 数据格式标准:结构化数据遵循JSON/CSV标准格式,视频数据遵循H.265标准,地理信息数据遵循GIS相关标准;
    • 编码标准:事件ID、人员ID、车辆ID等编码,遵循城市指挥中心统一编码规范,与各协同部门编码规则兼容;
    • 命名标准:字段名称、标签名称采用统一的中文命名,避免缩写、歧义(如"发生时间"不可简写为"时间")。

明确生产加工要求

城市指挥中心大脑对数据的"实时性、准确性、完整性"要求极高,尤其是应急事件、交通运行等核心数据,直接影响指挥调度的及时性和准确性。因此,生产加工要求需结合其业务时效性、安全性需求,制定可量化、可落地的操作规范,仍以应急事件融合数据集、交通运行实时数据集为例,具体要求如下:

采集质量要求

采集方式与频率

结合指挥中心不同业务场景的时效需求,明确定义采集方式和频率,避免"采集不及时""采集方式不合理"导致数据价值下降:

标注输出格式

针对需要用于AI模型训练、推理的数据集(如监控视频数据集、应急事件标注数据集),明确标注输出格式、质量抽检要求,确保标注结果可直接被指挥中心大脑的AI模型调用:


未完待续~


第四部分:数据工程实施------采集、预处理与标注

简介: 本文详解AI数据工程实施路径,涵盖数据采集(多源汇聚、爬取、回流、视频网关、本地上传)、智能预处理(音视频图文全模态清洗增强)及高质量标注(众包/项目/预标+多类型审核入库),实现从规划到可训数据资产的全链路闭环。

上一篇中,我们了解了高质量数据集建设流程中至关重要的"需求调研"与"数据规划"两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集清单;还深入学习了如何通过基本信息编目、内容结构设计及生产加工要求的明确,为数据集制定出详尽的《目录建设标准》。 然而,仅有清晰的蓝图和清单还不够,如何将这些规划转化为实实在在的高质量数据?接下来,我们将探讨数据工程的具体实施路径。

这一环节是将抽象的数据集清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控、可追溯、高质量。

数据采集

数据采集是数据工程的起点,其核心目标是打破数据孤岛,将分散在不同系统、不同介质中的多源异构数据,通过多样化的采集方式统一汇聚,为后续的加工与应用奠定坚实基础。

在城市指挥中心大脑等复杂场景中,数据种类复杂,采集方式也呈现出多样化的特点,主要包括以下几类:

数据源采集

依托采集引擎,支持 FTP、OBS、Ozene、Minio、Ceph 等多种存储协议,能够无缝对接企业级数据源,无论是传统文件服务器、对象存储还是分布式存储,都能实现稳定、高效的数据采集,确保各类结构化与非结构化数据的统一接入。

数据爬取

通过设定爬取策略,开启自动化采集任务,并对任务执行过程进行实时监控,可抓取网页内容(文本、图像)、魔搭数据集、微信公众号等多种外部数据,同时支持自动化与手动采集相结合的方式,灵活拓展数据采集的边界,满足场景化的数据补充需求。

数据回流集成

支持将模型推理数据进行回流,提供丰富的回流策略,如抽样回流、任务调度、误报反馈回流、事件数据回流等,回流数据类型包括 request、request+response、request+response + 排序等多种形式,能够将模型应用过程中产生的宝贵数据重新注入数据体系,形成 "数据 - 模型 - 应用 - 数据" 的闭环,持续优化模型效果。

视频网关集成

针对城市指挥中心等场景中大量的视频监控数据,可对接视频网关,实现监控截图数据及事件数据的采集,同时支持将视频流截帧为图片存储到云盘或本地目录,为视觉类 AI 模型(如异常行为识别、目标检测)提供充足的样本来源。

本地上传

支持各类文档、音视频等素材从本地上传到平台,满足个性化的数据补充需求,让零散的本地数据也能纳入统一的管理体系。

【注意事项】数据采集多采用对象存储和向量存储

与结构化数据存储不同的是,此处数据采集多采用对象存储和向量存储。支持将多种非结构化数据接入到平台进行统一管理,包括视频数据接入、图像数据接入、文本数据接入、表格数据接入以及外部成熟样本数据导入 ,样本协议支持行业常见的VOC、coco、labelme等协议,同时也支持外部接口对接接入存储。

  • 视频/图像数据接入:平台对接视频数据源,包括大华、海天等主流视频平台;支持普通摄像头、支持采集视频流数据、可选将视频流截帧为图片,文件存储到云盘或本地目录;
  • 文档数据接入:文档本地上传;问答对接入;知识库接入;
  • 外部成熟样本导入:开源协议支持(mit、Apache License 2.0、CC-BY-NC-4.0);扩展外部成熟样本导入的标准协议(VOC、coco、labelme 、labelimg标注数据集)。

数据预处理

采集到的原始数据往往存在噪声大、格式不统一、质量参差不齐等问题,无法直接用于模型训练或业务应用。因此,数据预处理环节至关重要,其核心目标是通过智能化、标准化的处理,将原始数据转化为精细化、高质量的可用样本,为后续的标注与模型训练筑牢质量防线。

样本预处理覆盖视频、图像、文本、语音四大类,通过丰富的智能预处理插件(支持插拔式,可对接生态插件),对原始样本进行全维度处理。

视频预处理环节,首先对视频内容进行敏感信息脱敏,确保数据合规;接着用视频浓缩技术提取关键片段,压缩数据量同时提升处理效率;最后通过转码修复、噪声抑制、块效应消除、亮斑去除等操作改善视频质量,为后续分析与标注提供清晰素材。

图像预处理环节,先通过裁剪、旋转等几何变换,调整图像尺寸与格式以匹配模型输入要求;再调节对比度、亮度等色彩通道参数,优化视觉效果;同时模拟雨雪等环境进行数据增强,提升模型的场景泛化能力;最后通过裁剪、外扩等操作丰富样本类型,增强模型鲁棒性。

文本预处理环节,过滤重复字、词、句等冗余信息,精简文本内容;自动识别并脱敏身份证号、手机号、邮箱等隐私数据,保障信息安全;同时清理乱码、HTML标签、表情符等无效内容,统一文本格式,提高数据规范性。

语音预处理环节,先通过背景去噪消除环境干扰,提升语音清晰度;再通过语音增强优化信号质量,提高识别准确率;接着对长语音进行分帧,切分为适合模型训练的短片段;最后通过语音识别将语音转成文本,方便后续处理。

经上述全链路预处理后,高质量样本将统一存入样本库,形成标准化、可复用的数据资产,为后续数据标注及 AI 模型训练提供可靠支撑。

数据标注

数据标注是将无标签的原始数据转化为有监督学习所需标注数据的核心环节,其质量直接决定了 AI 模型的效果。我们采用端到端的标注流程,覆盖从样本接入到数据入库的全链路,同时通过智能化组件加持,大幅提升标注效率与质量。

通常,数据标注包含以下五个步骤:

样本集接入:需支持图像、视频、音频、文件、文本、表格等多类型样本接入,同时支持样本生成,满足多样化的标注需求。

标注任务发起:支持众包标注任务发布(标注员抢单)、项目标注任务发布(工作派单)、个人快速标注(无需质检)等多种模式,同时提供智能预标功能,减少标注成本。

标注数据执行:覆盖对话指令标注、多模态标注、图像分类 / 检测 / 分割标注、语音识别标注、OCR 文字辅助标注等丰富的标注类型,适配不同场景的需求。

样本验收审核:审核人员通过审核工具逐一检查标注结果,可按预设策略提交或打回检查结果,同时支持配置抽检规则,设置抽检比例并支持随机抽检,确保标注质量。

标注数据生成入库:已标注数据集沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据集导出到本地,满足灵活的应用需求。

但是需要注意的是,为了适配复杂场景的标注需求,有时也需要结合多种特性标注工具协同进行,比如说涉及到建模类型的,可以采用BIM标注3D点云标注图纸标注

相关推荐
赵优秀一一3 小时前
AI入门学习
人工智能·pytorch·深度学习
晶台光耦3 小时前
领时代·智未来 | 晶台光耦亮相2026北京车展
人工智能·光耦·光耦应用
深海鱼在掘金3 小时前
深入浅出 LangChain —— 第十二章:实战二 - 代码助手 Agent
人工智能·langchain·agent
这张生成的图像能检测吗3 小时前
(论文速读)基于多模态融合学习的航空发动机叶片损伤检测与测量
人工智能·深度学习·神经网络·计算机视觉·三维测量
深海鱼在掘金3 小时前
深入浅出 LangChain —— 第十三章:实战三 - 企业知识库问答
人工智能·langchain·agent
智慧医养结合软件开源3 小时前
可视化呈现长者分布与年龄结构,赋能精准康养管理
大数据·安全·百度·微信·云计算
nervermore9903 小时前
4. 人工智能学习-预训练模型
人工智能
互联网推荐官3 小时前
上海物联网应用开发公司推荐:五家真实工程能力横向比较
人工智能·软件工程
IT_陈寒3 小时前
Java的HashMap竟然不是线程安全的?刚在生产环境踩了坑
前端·人工智能·后端