AI 时代，企业为何必须重新思考数据底座？

随着AI时代的快速到来，无论是模型的训练推理，还是各行各业在AI场景中的探索、试点与推广，都对数据提出了全新的要求。而这些数据能否顺利落地，很大程度上依赖于底层数据平台或数据底座的能力。

袋鼠云在数据中台领域已深耕超过十年。结合AI时代对数据的新需求，本篇我们将重点探讨在AI时代，企业为什么要重新思考数据底座？

一、高质量数据集：AI应用落地的基石

当前业内主流大模型（如豆包、通义千问、DeepSeek等）的泛化能力与推理表现，均高度依赖数据的质量与丰富度。而在上层AI应用（如问数系统、知识库等）中，若要从Demo或个人使用迈向企业级生产应用，同样离不开高质量数据集的支撑。

然而在实际落地过程中，企业普遍面临数据不完整、质量参差甚至存在错误等问题，大量未经治理的数据被直接输入模型，进而引发"幻觉"等不稳定现象。在生产环境下，这类数据难以直接支撑业务应用，往往需要投入大量人工进行校验与处理，显著增加了落地成本，也制约了企业在AI方向的深入探索与规模化推广。

二、政策驱动：国家大力支持AI与数据要素融合

为了配套支持AI应用的快速落地，国家近年来连续发布了多项政策，推动AI与各行业深度结合：

在国家密集政策的持续推动下，市场上已涌现出一批高质量数据集建设项目，尤其在政企领域表现尤为突出。

那么，什么才算是"高质量数据集"？2025年中国国际大数据产业博览会正式发布的《高质量数据集建设指引》给出了明确标准：高质量数据集应具备准确性、完整性、一致性、时效性、相关性、代表性与无偏性等关键特征。

以"准确性"为例，企业内部虽拥有海量数据，但由于跨部门口径不一，数据冲突现象较为常见，因此在建设高质量数据集时，必须优先保障数据结果的准确可靠。再看"完整性"，在问数等应用场景中，一旦问题超出知识库覆盖范围，系统便难以给出有效答案，这就要求企业对字段维度与系统范围进行系统化梳理与补全，确保数据体系的全面性。

三、高质量数据集对平台的核心要求

高质量数据集的落地，极其考验底层平台的能力，主要包括：

自动化的工具链：高质量数据的形成需要将企业各业务系统的数据、公网爬取的数据、接口调用的数据以及本地文件（文档、音频、视频）统一采集、整合、处理。整个链路需要自动化工具链来完成数据采集、清洗、人工或自动标注以及质量检查。

治理平台：围绕自动化工具链之上，需要一套治理平台来管理数据之间的血缘关系、数据滚动的校验以及质量监控，实现日常管控和运营。

数据安全与隐私：高质量数据最终要支撑各种AI应用和大模型，因此平台必须支持跨域联邦学习、数据可用不可见、数据脱敏加密，以及表级、文件级的精细权限管控。

多模态存储与计算：高质量数据集的来源包括文本、图像、音频、视频等，平台需要具备多模态的存储、计算和管控能力。

四、可信数据空间：破解数据孤岛与合规难题

在企业建设各种数据应用的过程中，需要用到内部私有数据，这就需要将企业知识库和各种数据灌入Data Agent相关应用中。然而，这些数据是否存在违规、跨域或跨权限访问的问题，面临较大挑战。实际落地中存在四大痛点：

数据孤岛与滥用：数据来自CRM、OA、财务等不同系统，存储在企业知识库、网盘甚至个人电脑上，分散存储形成烟囱，难以管控。

严苛的合规压力：随着《数据安全法》的颁布，个人隐私数据有明确的安全要求。如果通过公有云大模型调用，数据传输到互联网上存在较大安全隐患。

细粒度的权限管控缺失：大量数据整合后，需要明确哪些部门可以访问哪些数据。例如财务数据仅限管理层和财务部门，人力数据仅限人力部门。缺乏细粒度管控会导致数据被越权访问，引发内部风险。

溯源与审计困难：一旦发现数据违规使用，需要全链路数据流转追踪和事件定责的工具。

为此，构建可信数据空间成为必要，具体包括：

智能治理：通过AI自动化数据治理，实时监控数据链路和资产价值。

统一的连接器：适配各种异构系统，实现多元异构数据的安全接入与高效交换。

多模态能力：面向各类文件、音频、视频及系统数据，提供高性能的计算和处理能力。

数据安全：实现测试数据与生产数据隔离，最小授权粒度，关键数据可用不可见、可用不可出，支持精细化的细粒度权限管控。

五、Data Agent与RAG落地的挑战与应对

当前市场上出现了各种Data Agent，如问数Agent、营销Agent、数据洞察Agent等。这些Agent本质上都需要搭建一套知识库（RAG），将企业各类数据利用起来，并通过TextSQL等技术降低数据使用门槛，让非技术人员（如运营、销售、行政等）也能通过自然语言快速获取数据价值。

然而实际落地中面临诸多问题：

术语与指标难以理解：AI很难理解企业自定义的术语和指标，例如"爆款""3C""6C""大客户"等，每个企业的定义不同。

数据质量与可信度：即使AI生成的语法和图表正确，但由于数据质量问题或模型环节问题，最终结果可能是错误的，导致管理人员无法直接用于决策。

基础设施瓶颈：多模态数据（文件、音频、视频）纳入后，数据量级从几个TB升级到PB级别。海量数据的处理需要GPU支撑，传统CPU难以胜任。同时，非结构化数据的管理方式不同于结构化数据，以往的元数据管理（如Hive表结构）已经失效。

六、多模态数据的广泛应用场景

除了高质量数据集和可信数据空间，还有大量数据应用需要底层多模态数据平台的支撑：

医疗诊断：整合患者就诊数据、拍片数据、健康体检数据，形成智能诊断方案。

内容创作：整合作者以往的写作数据和偏好，通过AI辅助生成创作内容。

智能客服：整合客户咨询记录、偏好、购买记录以及产品知识库、问答知识库，实现智能客服。

智能制造：通过生产车间的摄像头和传感器采集生产环节数据，结合生产系统数据，实现智能制造。

金融风控：整合用户借款记录、还款记录、消费习惯及关系网络，支撑金融风控场景。

教育、自动驾驶等场景同样涉及多模态数据平台的要求。

为了支撑这些场景，多模态平台需要采集企业内部外部的结构化与非结构化数据，让数据从单一系统维度走向多模态、多维化，使数据应用更加丰富和完善。

七、传统数据平台的"能力天花板"VS"多模态平台多维融合"

以往的传统数据平台在支撑上述应用时，存在以下问题：

数据类型汇聚不统一：传统平台主要采集结构化数据（如Oracle、MySQL、SQL Server等），对于非结构化数据（文本、图片、音频、视频）采集能力缺乏，需要不同技术工具，存储在不同位置（文件服务器、对象存储），形成割裂局面。

多模态语义搜索能力不足：传统平台主要支持结构化数据的二维表形式，搜索多采用关键词索引，难以支持向量化语义搜索。非结构化数据的处理需要专业算法人员（如图片关键词提取、文档切分、视频内容提取），上手门槛高。

元数据管理不统一：传统平台管理MySQL、Hive等元数据，而文件、视频、音频等可能存储在网盘、FTP、语雀、钉钉等不同平台，元数据无法打通，权限不一致，带来安全风险。

Data与AI流程割裂：传统数据平台主要为数仓而生，支持BI图表和仪表盘；而AI应用对非结构化数据要求高，两者技术栈和团队不同，开发和运维流程割裂。

基于以上问题，新型多模态平台需要具备以下能力：

多模态数据的统一采集：无论结构化、半结构化还是非结构化数据，无论存储在何处，都可以通过统一平台采集，实现技术栈和操作习惯的统一，避免数据孤岛。

统一的治理能力：通过GPU相关算子处理非结构化数据，并与结构化数据做关联或联邦计算，形成有价值的数据资产或数据集。

语义化搜索与知识构建：支持关键词、语义化、索引化搜索，统一管理元数据。用户可以在权限范围内查看结构化和非结构化数据（文件、音频、图片、系统表等），并进行统一搜索。

智能化的多模态数据处理与标注：平台内置大量处理算子，通过低代码方式快速解析文件、图片、音频，支持智能标注或人工标注，降低数据清洗成本，提高效率。

九、双轮驱动：Data for AI 与 AI for Data

在实施过程中，通过平台与方法的结合，可以落地高质量数据集和可信数据空间，支撑AI应用的快速发展和生产上线。我们总结出两种模式：

Data for AI · 数据供给侧

通过采集、清洗、标注、增强、评估等关键技术，为各种AI应用提供高质量的数据语料，最终保证产出的数据干净且可用，从而降低大模型的幻觉率，提高指标问数、ChatBI等AI应用的准确率。

AI for Data · 治理智能化

利用AI技术提高数据集处理和多模态数据形成过程中的效率。例如，传统治理需要人工逐个建立采集任务、清洗任务（从ODS层到DWD层等），并手动维护。而AI可以自动化建模、标注、数据约束和管控，大大提升数据治理效率。

通过 Data for AI 和 AI for Data 的双轮驱动，可以使多模态数据落地过程效率大幅提升，降低实施周期和成本。

十、未来三大演进方向

基于多模态数据平台和治理方法论，未来有三大核心演进方向：

① 数智一体化：以往数据治理和AI是两套平台建设。未来，数据平台、数据治理和AI平台应合二为一，在平台中内置AI能力（如向量搜索、智能问答、知识库），整合大模型、向量库、搜索引擎等技术组件，通过一道平台满足治理自动化、标注和向量化要求。

② AI自动化治理：基于数智一体平台，将大量重复性、有规则性、可定义SOP的治理工作交给AI完成，例如自动生成数据标准、自动检测不符合标准的数据、自动生成数据模型和ETL任务等。只要可以明确定义并有足够语料，AI就可以执行，从而降低实施工作量、成本和上线周期。

③ 数据安全内置：在平台的存储、加工各环节内置数据安全组件，包括文件/表的权限控制、数据脱敏加密、数据质量管控等，达到数据合规和最小颗粒度使用。

十一、袋鼠云多模态数据平台产品架构

基于上述理解，袋鼠云研发了多模态数据平台，产品架构如下：

左侧数据来源：包括各种关系数据库（Oracle、MySQL等）、MPP数据库、Hadoop体系数据，以及半结构化/非结构化数据（日志、网页、文档、图片、音视频等）。

统一数据集成：将上述数据采集到平台存储。

存储层：内置对象存储（MinIO、S3）、数据湖、向量库、图数据库等多样化组件，满足不同数据的存储和使用需求。

模型服务层：提供模型管理和服务能力，可对接DeepSeek、通义千问、豆包等第三方模型，进行管理、微调和推理。

统一元数据管理：通过Graphine等多模元数据管理组件，将非结构化和结构化数据的元数据统一管理。

调度层：实现CPU和GPU混合调度，特别是GPU调度支持非结构化数据的并发解析识别。

计算层：提供离线计算、实时计算、机器学习等处理能力。

开发治理层：统一的开发UI界面，支持低代码开发、数据质量检测、数据血缘、数据安全等能力。

AI应用：为问数Data Agent、智能客服、企业知识库、资产门户、知识图谱、高质量数据集等提供统一的数据能力。

多模态数据平台产品架构图

通过这一平台，企业可以快速构建AI应用所需的所有底层数据。

十二、多模态数据平台的终极形态

以往的数据平台核心是提供结构化数据整合能力，最终支撑BI报表、分析报表或门户等应用。但在AI时代，许多企业在建设AI应用时发现：问数、知识库、搜索不准或错误，准确率不高。回归问题本质，核心还是底层数据集和平台能力不够------数据不全面、语义度不高，导致AI应用难以在生产环境中发挥作用。

在AI时代，数据已从以往的辅助决策、辅助资源，升级为核心生产资料。企业AI能否落地，核心依赖于底座的高质量数据集能做到什么程度，平台能否支持高质量数据集的快速落地和效果呈现。

因此，我们总结未来产品的几大形态：

① 构建统一底座：抛弃以往数仓仅解决结构化数据孤岛的思路，多模态平台要将结构化和非结构化数据全域接入、灵活处理。

② AI Native 的智能流水线：通过AI能力处理多模态数据，加速实施落地周期，提高资产转化效率。

③ 可信数据空间构建：平台上承载了企业所有数据（结构化和非结构化），数据的管控颗粒度和权限便捷度是核心生命线。需要构建可信数据能力，统一管控各类数据，方便、安全地供下游应用使用。

④ 敏捷智真创新：AI技术快速演进，数据来源快速膨胀。结构化数据在企业中可能只占10%甚至5%，而非结构化数据将占到90%甚至95%以上。这对大规模存储、处理、搜索提出了更高要求。平台需要支持海量数据存储管控计算，快速集成新组件，支持敏捷创新，如多模态数据存储和CPU/GPU混合调度。