Data Fabric 如何解决 AI 数据集建设问题

|-----------------------------------------------------------------------------------------------------------------|
| 面向 AI 的高质量数据集建设，不能再停留在找数、抽数和一次性清洗的层面。Data Fabric 的关键价值，是把分散数据资产组织成可理解、可治理、可追溯、可持续演进的数据产品，使 AI 数据集从项目制加工走向体系化生产。 |

图 1 Data Fabric 支撑 AI 数据集建设：从分散数据资产到 AI 高质量数据产品

一、AI 项目的瓶颈正在从模型转向数据集

过去谈到 AI 建设，很多企业首先想到的是算法、算力和模型平台。模型能力似乎决定了 AI 应用的上限，算法团队也往往被认为是 AI 项目成败的核心。

但在实际落地过程中，一个更基础的问题逐渐暴露出来：模型并不是最早遇到的困难，数据集才是。

企业并不缺数据。业务系统、数据仓库、数据湖、湖仓一体平台、日志系统、文档库和外部数据源都在持续产生数据。可是，当一个 AI 项目真正启动时，数据团队依然需要重新寻找数据、理解字段、确认口径、清洗异常、构建标签、划分样本，并不断验证数据是否能够支撑模型训练。

这说明问题并不在于"有没有数据"，而在于企业是否具备将数据持续组织成 AI 可用数据集的能力。

AI 数据集与传统分析数据集不同。传统分析更关注数据是否能够支撑报表、指标和查询，而 AI 数据集需要进一步支撑模型学习。模型不会天然理解业务语义，也不会主动判断标签是否可靠，更不会区分字段口径是否发生变化。它只能从输入数据中学习规律。因此，一旦数据集存在语义混乱、标签不稳、样本偏差、特征泄漏或血缘不清，模型就会把这些问题进一步放大。

所以，AI 时代的数据建设不能只停留在"数据可访问"，而要进一步走向"数据可训练、可评测、可复现、可治理"。

二、传统数据平台为什么难以直接支撑 AI 数据集建设

数据仓库、数据湖和湖仓一体平台解决了企业数据建设中的重要问题。数据仓库强调结构化建模和指标一致性，数据湖强调多源异构数据的低成本存储，湖仓一体进一步增强了数据管理、事务能力和分析计算能力。

这些能力是 AI 数据集建设的基础，但并不等同于 AI 数据集建设能力。

原因在于，AI 数据集不是简单的数据存储结果，而是数据经过业务理解、语义对齐、质量评估、样本构建、标签治理和特征加工之后形成的模型消费对象。它既包含数据本身，也包含围绕数据产生的一系列上下文信息。

例如，一个客户流失预测模型所需的数据，并不是从 CRM、订单系统、客服系统中各抽取几张表就可以完成。平台还需要理解"客户"在不同系统中的身份是否一致，订单金额的计算口径是否统一，流失标签的定义是否稳定，样本时间窗口是否合理，训练集和测试集之间是否存在数据泄漏。

如果缺少这些上下文，数据虽然被集中到了一个平台中，却仍然无法直接成为高质量 AI 数据集。

传统数据平台的问题，不是没有数据处理能力，而是缺少一种贯穿数据发现、语义理解、质量判断、治理约束和模型反馈的系统性连接机制。Data Fabric 进入 AI 数据集建设，正是为了补足这一层能力。

图 2 传统 AI 数据集建设困境：项目制取数形成一次性数据集，经验难以沉淀

三、Data Fabric 不是再建一个数据平台，而是建立数据理解网络

Data Fabric 的核心价值，不是替代数据仓库、数据湖或湖仓一体，而是在既有数据基础设施之上建立一层连接、理解和治理能力。

它将分散在不同系统中的数据资产，通过元数据、血缘、业务术语、知识图谱、质量规则和治理策略连接起来，使数据不再只是孤立存在的表、字段、文件或接口，而是成为能够被发现、被理解、被评估、被追踪的数据资产网络。

在这个网络中，数据科学家不再只是从某张表开始找数据，而是从业务问题出发寻找数据。平台也不再只是回答"数据在哪里"，而是进一步回答"这份数据代表什么业务对象、质量如何、来自哪里、被谁使用过、能否进入某类 AI 数据集"。

这正是 Data Fabric 与传统数据集建设方式的差异。传统模式下，数据集建设高度依赖人工经验。数据科学家要依靠数据工程师、业务专家和历史文档来理解数据。项目结束后，这些理解往往沉淀在脚本、注释和个人经验中，很难复用。

Data Fabric 方式下，每一次数据发现、数据加工、质量评估和模型使用，都会反过来丰富元数据体系。数据理解不再只存在于人脑和项目文档中，而是沉淀为平台能力。随着时间推移，企业的数据集建设会从"项目制加工"逐渐转向"体系化生产"。

图 3 Data Fabric 数据理解网络：通过元数据、语义、血缘和治理连接分散数据

四、AI 数据集建设首先要解决语义一致性

高质量 AI 数据集的第一个前提，是语义一致。

语义不一致的问题在传统 BI 中已经存在，但在 AI 场景下会更加严重。报表指标口径不一致，通常表现为不同部门看到的数字不一样；而 AI 数据集语义不一致，则会直接影响模型学习到的规律。

同一个字段名称，在不同系统中可能代表不同含义。同一个业务对象，在不同系统中可能使用不同编码。同一个指标，在不同场景下可能采用不同计算方式。如果这些问题没有被识别，模型训练出来的结果看似有较高准确率，实际却可能建立在错误的数据关系之上。

Data Fabric 通过业务术语表、领域模型、语义标注和知识图谱，将技术字段映射到业务概念，并进一步建立业务对象之间的关系。这样，AI 数据集中的字段就不再只是孤立的列名，而是具有明确业务含义的特征候选。

例如，在构建企业经营风险模型时，平台需要理解"企业主体""法人""股东""交易对手""授信客户"之间的关系。它们可能分散在工商数据、合同系统、财务系统和风控系统中。如果只是基于字段拼接，很难形成稳定的数据集；如果通过 Data Fabric 建立语义关系，模型使用的数据就可以围绕真实业务对象组织起来。

语义一致性解决的是 AI 数据集的理解基础。只有数据含义稳定，后续的样本构建、标签治理和特征加工才有可靠前提。

五、质量评估要从字段质量走向模型适配质量

传统数据质量管理通常关注完整性、唯一性、准确性、一致性和及时性。这些指标仍然重要，但对于 AI 数据集来说还不够。

AI 模型使用数据的方式，决定了数据质量评估必须进一步扩展。一个字段没有缺失，并不意味着它适合建模；一张表通过了规则校验，也不意味着它能够支撑模型训练。AI 数据集还要关注样本分布是否合理，标签是否可靠，特征是否稳定，训练集和测试集是否存在泄漏，数据是否发生漂移，以及数据中是否存在潜在偏差。

这意味着，AI 数据质量不能只停留在数据入湖、入仓或入表之前的一次性检查，而要贯穿数据集生产和模型运行全过程。

Data Fabric 在这里的作用，是将数据画像、质量规则、血缘关系和模型反馈连接起来。数据质量不再是一份静态报告，而是一个持续运行的机制。当某个字段的缺失率异常升高，平台可以发现质量变化；当某个特征的分布在不同时间窗口中出现偏移，平台可以标记潜在风险；当模型上线后效果下降，平台可以进一步回溯数据来源、加工逻辑和标签规则是否发生变化。

这种机制使数据质量从"治理检查项"变成"模型可靠性的前置条件"。

六、标签治理决定了 AI 数据集的可信程度

在 AI 数据集建设中，标签往往比特征更加关键。

很多模型项目看起来是在优化算法，实际上问题出在标签定义。风控模型中的"违约"到底是逾期一天、逾期三十天，还是进入核销流程；设备故障模型中的"故障"到底是系统告警、设备停机，还是人工确认；客户流失模型中的"流失"到底是一个月未登录、三个月未购买，还是明确注销账户。

标签定义不同，模型学习到的业务规律就完全不同。

Data Fabric 并不替代业务人员定义标签，但它可以让标签成为可管理、可追溯、可复用的数据资产。一个标签不应该只是训练表中的一个字段，而应该包含业务定义、生成规则、时间窗口、数据来源、质量状态、责任人和使用记录。

当标签被纳入元数据和血缘体系之后，企业就能够知道某个模型使用的是哪一种标签定义，标签由哪些数据生成，生成规则是否发生变化，标签是否经过人工确认，以及哪些模型曾经使用过这个标签。

这对于 AI 规模化落地非常重要。因为模型越多，标签复用越频繁，标签口径不一致带来的风险就越大。Data Fabric 通过将标签治理纳入数据集生产过程，使 AI 数据集从"可以训练"进一步走向"可以解释和可以审计"。

七、数据血缘让 AI 数据集具备可追溯和可复现能力

AI 数据集建设还有一个常被低估的问题：可复现。

模型上线后，如果效果下降，团队需要回答一系列问题。训练模型时使用的是哪一版数据？这些数据来自哪些源系统？字段是否发生变化？标签规则是否调整？特征加工逻辑是否被修改？训练集和验证集的划分是否一致？

如果没有血缘能力，这些问题很难回答。

Data Fabric 中的主动数据血缘，使数据从源系统到数据集，再到模型训练、模型评测和模型上线的全过程具备可追踪能力。每一个字段、每一个特征、每一个标签，都可以关联到来源、加工过程和消费对象。

这种能力不仅用于问题排查，也用于模型治理。企业可以知道某个敏感字段是否进入了训练数据，某个数据源变更会影响哪些模型，某个质量问题是否已经传导到下游数据集。

因此，血缘不是 AI 数据集建设的附属功能，而是 AI 数据集可信使用的基础条件。

八、Data Fabric 最终要形成 AI 数据集生产体系

当语义、质量、标签和血缘能力连接起来之后，Data Fabric 对 AI 数据集建设的价值才真正显现出来。

它不再只是帮助团队更快找到数据，也不只是帮助治理人员检查数据质量，而是逐渐形成一套面向 AI 的数据集生产体系。

在这套体系中，底层仍然是企业已有的数据资源，包括业务系统、数据仓库、数据湖、湖仓、文档库、日志平台和外部数据源。Data Fabric 位于这些资源之上，通过主动元数据、主动血缘、语义模型、知识图谱、质量规则和治理策略，将分散数据连接成可理解的数据网络。再往上，平台围绕 AI 场景进行样本构建、标签治理、实体对齐、特征加工、数据切分、向量化处理和质量评估。最终形成训练集、验证集、测试集、特征集、标签集、评测集、知识库和向量库等 AI 数据产品。

图 4 从数据资产到 AI 数据集的生产链路：Data Fabric 贯穿全链路

这套体系最重要的特征是持续演进。传统数据集往往依附于项目。项目启动时临时加工，项目结束后沉淀有限。下一个项目开始时，团队又要重复找数、问数、清洗和验证。

Data Fabric 方式下，数据集被视为长期资产。模型使用数据集之后产生的反馈，例如错误样本、低置信度样本、漂移结果、特征重要性变化和人工修正结果，都可以重新进入元数据体系，成为下一轮数据集优化的依据。

这就形成了一个闭环：数据资产被发现和理解，数据被加工成 AI 数据集，模型消费数据集并产生反馈，反馈再推动数据质量、标签规则和特征逻辑持续优化。

图 5 AI 数据集持续演进闭环：模型反馈重新进入数据体系，推动数据集版本优化

结语：AI 数据集不是加工出来的，而是生产出来的

Data Fabric 解决 AI 数据集建设问题，核心不在于提供一个新的清洗工具，也不在于再建一个集中式数据平台，而在于改变企业组织数据的方式。

它让数据从分散资源变成可管理资产，再从可管理资产变成可持续供给模型的数据产品。

在 AI 时代，企业数据平台不能只回答"数据在哪里"，还要回答"这些数据是否适合被 AI 使用"。这背后需要语义理解、质量评估、标签治理、血缘追踪、权限控制和模型反馈共同作用。

因此，面向 AI 的高质量数据集，不是一次性加工出来的，而是在 Data Fabric 支撑下持续生产出来的。

当企业能够持续发现数据、理解数据、评估数据、治理数据，并将数据封装为可复用、可追溯、可迭代的 AI 数据产品时，AI 才真正具备规模化落地的基础。