Data Fabric 如何解决 AI 数据集建设问题

|-----------------------------------------------------------------------------------------------------------------|
| 面向 AI 的高质量数据集建设,不能再停留在找数、抽数和一次性清洗的层面。Data Fabric 的关键价值,是把分散数据资产组织成可理解、可治理、可追溯、可持续演进的数据产品,使 AI 数据集从项目制加工走向体系化生产。 |

图 1 Data Fabric 支撑 AI 数据集建设:从分散数据资产到 AI 高质量数据产品

一、AI 项目的瓶颈正在从模型转向数据集

过去谈到 AI 建设,很多企业首先想到的是算法、算力和模型平台。模型能力似乎决定了 AI 应用的上限,算法团队也往往被认为是 AI 项目成败的核心。

但在实际落地过程中,一个更基础的问题逐渐暴露出来:模型并不是最早遇到的困难,数据集才是。

企业并不缺数据。业务系统、数据仓库、数据湖、湖仓一体平台、日志系统、文档库和外部数据源都在持续产生数据。可是,当一个 AI 项目真正启动时,数据团队依然需要重新寻找数据、理解字段、确认口径、清洗异常、构建标签、划分样本,并不断验证数据是否能够支撑模型训练。

这说明问题并不在于"有没有数据",而在于企业是否具备将数据持续组织成 AI 可用数据集的能力。

AI 数据集与传统分析数据集不同。传统分析更关注数据是否能够支撑报表、指标和查询,而 AI 数据集需要进一步支撑模型学习。模型不会天然理解业务语义,也不会主动判断标签是否可靠,更不会区分字段口径是否发生变化。它只能从输入数据中学习规律。因此,一旦数据集存在语义混乱、标签不稳、样本偏差、特征泄漏或血缘不清,模型就会把这些问题进一步放大。

所以,AI 时代的数据建设不能只停留在"数据可访问",而要进一步走向"数据可训练、可评测、可复现、可治理"。

二、传统数据平台为什么难以直接支撑 AI 数据集建设

数据仓库、数据湖和湖仓一体平台解决了企业数据建设中的重要问题。数据仓库强调结构化建模和指标一致性,数据湖强调多源异构数据的低成本存储,湖仓一体进一步增强了数据管理、事务能力和分析计算能力。

这些能力是 AI 数据集建设的基础,但并不等同于 AI 数据集建设能力。

原因在于,AI 数据集不是简单的数据存储结果,而是数据经过业务理解、语义对齐、质量评估、样本构建、标签治理和特征加工之后形成的模型消费对象。它既包含数据本身,也包含围绕数据产生的一系列上下文信息。

例如,一个客户流失预测模型所需的数据,并不是从 CRM、订单系统、客服系统中各抽取几张表就可以完成。平台还需要理解"客户"在不同系统中的身份是否一致,订单金额的计算口径是否统一,流失标签的定义是否稳定,样本时间窗口是否合理,训练集和测试集之间是否存在数据泄漏。

如果缺少这些上下文,数据虽然被集中到了一个平台中,却仍然无法直接成为高质量 AI 数据集。

传统数据平台的问题,不是没有数据处理能力,而是缺少一种贯穿数据发现、语义理解、质量判断、治理约束和模型反馈的系统性连接机制。Data Fabric 进入 AI 数据集建设,正是为了补足这一层能力。

图 2 传统 AI 数据集建设困境:项目制取数形成一次性数据集,经验难以沉淀

三、Data Fabric 不是再建一个数据平台,而是建立数据理解网络

Data Fabric 的核心价值,不是替代数据仓库、数据湖或湖仓一体,而是在既有数据基础设施之上建立一层连接、理解和治理能力。

它将分散在不同系统中的数据资产,通过元数据、血缘、业务术语、知识图谱、质量规则和治理策略连接起来,使数据不再只是孤立存在的表、字段、文件或接口,而是成为能够被发现、被理解、被评估、被追踪的数据资产网络。

在这个网络中,数据科学家不再只是从某张表开始找数据,而是从业务问题出发寻找数据。平台也不再只是回答"数据在哪里",而是进一步回答"这份数据代表什么业务对象、质量如何、来自哪里、被谁使用过、能否进入某类 AI 数据集"。

这正是 Data Fabric 与传统数据集建设方式的差异。传统模式下,数据集建设高度依赖人工经验。数据科学家要依靠数据工程师、业务专家和历史文档来理解数据。项目结束后,这些理解往往沉淀在脚本、注释和个人经验中,很难复用。

Data Fabric 方式下,每一次数据发现、数据加工、质量评估和模型使用,都会反过来丰富元数据体系。数据理解不再只存在于人脑和项目文档中,而是沉淀为平台能力。随着时间推移,企业的数据集建设会从"项目制加工"逐渐转向"体系化生产"。

图 3 Data Fabric 数据理解网络:通过元数据、语义、血缘和治理连接分散数据

四、AI 数据集建设首先要解决语义一致性

高质量 AI 数据集的第一个前提,是语义一致。

语义不一致的问题在传统 BI 中已经存在,但在 AI 场景下会更加严重。报表指标口径不一致,通常表现为不同部门看到的数字不一样;而 AI 数据集语义不一致,则会直接影响模型学习到的规律。

同一个字段名称,在不同系统中可能代表不同含义。同一个业务对象,在不同系统中可能使用不同编码。同一个指标,在不同场景下可能采用不同计算方式。如果这些问题没有被识别,模型训练出来的结果看似有较高准确率,实际却可能建立在错误的数据关系之上。

Data Fabric 通过业务术语表、领域模型、语义标注和知识图谱,将技术字段映射到业务概念,并进一步建立业务对象之间的关系。这样,AI 数据集中的字段就不再只是孤立的列名,而是具有明确业务含义的特征候选。

例如,在构建企业经营风险模型时,平台需要理解"企业主体""法人""股东""交易对手""授信客户"之间的关系。它们可能分散在工商数据、合同系统、财务系统和风控系统中。如果只是基于字段拼接,很难形成稳定的数据集;如果通过 Data Fabric 建立语义关系,模型使用的数据就可以围绕真实业务对象组织起来。

语义一致性解决的是 AI 数据集的理解基础。只有数据含义稳定,后续的样本构建、标签治理和特征加工才有可靠前提。

五、质量评估要从字段质量走向模型适配质量

传统数据质量管理通常关注完整性、唯一性、准确性、一致性和及时性。这些指标仍然重要,但对于 AI 数据集来说还不够。

AI 模型使用数据的方式,决定了数据质量评估必须进一步扩展。一个字段没有缺失,并不意味着它适合建模;一张表通过了规则校验,也不意味着它能够支撑模型训练。AI 数据集还要关注样本分布是否合理,标签是否可靠,特征是否稳定,训练集和测试集是否存在泄漏,数据是否发生漂移,以及数据中是否存在潜在偏差。

这意味着,AI 数据质量不能只停留在数据入湖、入仓或入表之前的一次性检查,而要贯穿数据集生产和模型运行全过程。

Data Fabric 在这里的作用,是将数据画像、质量规则、血缘关系和模型反馈连接起来。数据质量不再是一份静态报告,而是一个持续运行的机制。当某个字段的缺失率异常升高,平台可以发现质量变化;当某个特征的分布在不同时间窗口中出现偏移,平台可以标记潜在风险;当模型上线后效果下降,平台可以进一步回溯数据来源、加工逻辑和标签规则是否发生变化。

这种机制使数据质量从"治理检查项"变成"模型可靠性的前置条件"。

六、标签治理决定了 AI 数据集的可信程度

在 AI 数据集建设中,标签往往比特征更加关键。

很多模型项目看起来是在优化算法,实际上问题出在标签定义。风控模型中的"违约"到底是逾期一天、逾期三十天,还是进入核销流程;设备故障模型中的"故障"到底是系统告警、设备停机,还是人工确认;客户流失模型中的"流失"到底是一个月未登录、三个月未购买,还是明确注销账户。

标签定义不同,模型学习到的业务规律就完全不同。

Data Fabric 并不替代业务人员定义标签,但它可以让标签成为可管理、可追溯、可复用的数据资产。一个标签不应该只是训练表中的一个字段,而应该包含业务定义、生成规则、时间窗口、数据来源、质量状态、责任人和使用记录。

当标签被纳入元数据和血缘体系之后,企业就能够知道某个模型使用的是哪一种标签定义,标签由哪些数据生成,生成规则是否发生变化,标签是否经过人工确认,以及哪些模型曾经使用过这个标签。

这对于 AI 规模化落地非常重要。因为模型越多,标签复用越频繁,标签口径不一致带来的风险就越大。Data Fabric 通过将标签治理纳入数据集生产过程,使 AI 数据集从"可以训练"进一步走向"可以解释和可以审计"。

七、数据血缘让 AI 数据集具备可追溯和可复现能力

AI 数据集建设还有一个常被低估的问题:可复现。

模型上线后,如果效果下降,团队需要回答一系列问题。训练模型时使用的是哪一版数据?这些数据来自哪些源系统?字段是否发生变化?标签规则是否调整?特征加工逻辑是否被修改?训练集和验证集的划分是否一致?

如果没有血缘能力,这些问题很难回答。

Data Fabric 中的主动数据血缘,使数据从源系统到数据集,再到模型训练、模型评测和模型上线的全过程具备可追踪能力。每一个字段、每一个特征、每一个标签,都可以关联到来源、加工过程和消费对象。

这种能力不仅用于问题排查,也用于模型治理。企业可以知道某个敏感字段是否进入了训练数据,某个数据源变更会影响哪些模型,某个质量问题是否已经传导到下游数据集。

因此,血缘不是 AI 数据集建设的附属功能,而是 AI 数据集可信使用的基础条件。

八、Data Fabric 最终要形成 AI 数据集生产体系

当语义、质量、标签和血缘能力连接起来之后,Data Fabric 对 AI 数据集建设的价值才真正显现出来。

它不再只是帮助团队更快找到数据,也不只是帮助治理人员检查数据质量,而是逐渐形成一套面向 AI 的数据集生产体系。

在这套体系中,底层仍然是企业已有的数据资源,包括业务系统、数据仓库、数据湖、湖仓、文档库、日志平台和外部数据源。Data Fabric 位于这些资源之上,通过主动元数据、主动血缘、语义模型、知识图谱、质量规则和治理策略,将分散数据连接成可理解的数据网络。再往上,平台围绕 AI 场景进行样本构建、标签治理、实体对齐、特征加工、数据切分、向量化处理和质量评估。最终形成训练集、验证集、测试集、特征集、标签集、评测集、知识库和向量库等 AI 数据产品。

图 4 从数据资产到 AI 数据集的生产链路:Data Fabric 贯穿全链路

这套体系最重要的特征是持续演进。传统数据集往往依附于项目。项目启动时临时加工,项目结束后沉淀有限。下一个项目开始时,团队又要重复找数、问数、清洗和验证。

Data Fabric 方式下,数据集被视为长期资产。模型使用数据集之后产生的反馈,例如错误样本、低置信度样本、漂移结果、特征重要性变化和人工修正结果,都可以重新进入元数据体系,成为下一轮数据集优化的依据。

这就形成了一个闭环:数据资产被发现和理解,数据被加工成 AI 数据集,模型消费数据集并产生反馈,反馈再推动数据质量、标签规则和特征逻辑持续优化。

图 5 AI 数据集持续演进闭环:模型反馈重新进入数据体系,推动数据集版本优化

结语:AI 数据集不是加工出来的,而是生产出来的

Data Fabric 解决 AI 数据集建设问题,核心不在于提供一个新的清洗工具,也不在于再建一个集中式数据平台,而在于改变企业组织数据的方式。

它让数据从分散资源变成可管理资产,再从可管理资产变成可持续供给模型的数据产品。

在 AI 时代,企业数据平台不能只回答"数据在哪里",还要回答"这些数据是否适合被 AI 使用"。这背后需要语义理解、质量评估、标签治理、血缘追踪、权限控制和模型反馈共同作用。

因此,面向 AI 的高质量数据集,不是一次性加工出来的,而是在 Data Fabric 支撑下持续生产出来的。

当企业能够持续发现数据、理解数据、评估数据、治理数据,并将数据封装为可复用、可追溯、可迭代的 AI 数据产品时,AI 才真正具备规模化落地的基础。