AI 时代,企业为何必须重新思考数据底座?

随着AI时代的快速到来,无论是模型的训练推理,还是各行各业在AI场景中的探索、试点与推广,都对数据提出了全新的要求。而这些数据能否顺利落地,很大程度上依赖于底层数据平台或数据底座的能力。

袋鼠云在数据中台领域已深耕超过十年。结合AI时代对数据的新需求,本篇我们将重点探讨在AI时代,企业为什么要重新思考数据底座?

一、高质量数据集:AI应用落地的基石

当前业内主流大模型(如豆包、通义千问、DeepSeek等)的泛化能力与推理表现,均高度依赖数据的质量与丰富度。而在上层AI应用(如问数系统、知识库等)中,若要从Demo或个人使用迈向企业级生产应用,同样离不开高质量数据集的支撑。

然而在实际落地过程中,企业普遍面临数据不完整、质量参差甚至存在错误等问题,大量未经治理的数据被直接输入模型,进而引发"幻觉"等不稳定现象。在生产环境下,这类数据难以直接支撑业务应用,往往需要投入大量人工进行校验与处理,显著增加了落地成本,也制约了企业在AI方向的深入探索与规模化推广。

二、政策驱动:国家大力支持AI与数据要素融合

为了配套支持AI应用的快速落地,国家近年来连续发布了多项政策,推动AI与各行业深度结合:

在国家密集政策的持续推动下,市场上已涌现出一批高质量数据集建设项目,尤其在政企领域表现尤为突出。

那么,什么才算是"高质量数据集"?2025年中国国际大数据产业博览会正式发布的《高质量数据集建设指引》给出了明确标准:高质量数据集应具备准确性、完整性、一致性、时效性、相关性、代表性与无偏性等关键特征。

以"准确性"为例,企业内部虽拥有海量数据,但由于跨部门口径不一,数据冲突现象较为常见,因此在建设高质量数据集时,必须优先保障数据结果的准确可靠。再看"完整性",在问数等应用场景中,一旦问题超出知识库覆盖范围,系统便难以给出有效答案,这就要求企业对字段维度与系统范围进行系统化梳理与补全,确保数据体系的全面性。

三、高质量数据集对平台的核心要求

高质量数据集的落地,极其考验底层平台的能力,主要包括:

自动化的工具链:高质量数据的形成需要将企业各业务系统的数据、公网爬取的数据、接口调用的数据以及本地文件(文档、音频、视频)统一采集、整合、处理。整个链路需要自动化工具链来完成数据采集、清洗、人工或自动标注以及质量检查。

治理平台:围绕自动化工具链之上,需要一套治理平台来管理数据之间的血缘关系、数据滚动的校验以及质量监控,实现日常管控和运营。

数据安全与隐私:高质量数据最终要支撑各种AI应用和大模型,因此平台必须支持跨域联邦学习、数据可用不可见、数据脱敏加密,以及表级、文件级的精细权限管控。

多模态存储与计算:高质量数据集的来源包括文本、图像、音频、视频等,平台需要具备多模态的存储、计算和管控能力。

四、可信数据空间:破解数据孤岛与合规难题

在企业建设各种数据应用的过程中,需要用到内部私有数据,这就需要将企业知识库和各种数据灌入Data Agent相关应用中。然而,这些数据是否存在违规、跨域或跨权限访问的问题,面临较大挑战。实际落地中存在四大痛点:

数据孤岛与滥用:数据来自CRM、OA、财务等不同系统,存储在企业知识库、网盘甚至个人电脑上,分散存储形成烟囱,难以管控。

严苛的合规压力:随着《数据安全法》的颁布,个人隐私数据有明确的安全要求。如果通过公有云大模型调用,数据传输到互联网上存在较大安全隐患。

细粒度的权限管控缺失:大量数据整合后,需要明确哪些部门可以访问哪些数据。例如财务数据仅限管理层和财务部门,人力数据仅限人力部门。缺乏细粒度管控会导致数据被越权访问,引发内部风险。

溯源与审计困难:一旦发现数据违规使用,需要全链路数据流转追踪和事件定责的工具。

为此,构建可信数据空间成为必要,具体包括:

智能治理:通过AI自动化数据治理,实时监控数据链路和资产价值。

统一的连接器:适配各种异构系统,实现多元异构数据的安全接入与高效交换。

多模态能力:面向各类文件、音频、视频及系统数据,提供高性能的计算和处理能力。

数据安全:实现测试数据与生产数据隔离,最小授权粒度,关键数据可用不可见、可用不可出,支持精细化的细粒度权限管控。

五、Data Agent与RAG落地的挑战与应对

当前市场上出现了各种Data Agent,如问数Agent、营销Agent、数据洞察Agent等。这些Agent本质上都需要搭建一套知识库(RAG),将企业各类数据利用起来,并通过TextSQL等技术降低数据使用门槛,让非技术人员(如运营、销售、行政等)也能通过自然语言快速获取数据价值。

然而实际落地中面临诸多问题:

术语与指标难以理解:AI很难理解企业自定义的术语和指标,例如"爆款""3C""6C""大客户"等,每个企业的定义不同。

数据质量与可信度:即使AI生成的语法和图表正确,但由于数据质量问题或模型环节问题,最终结果可能是错误的,导致管理人员无法直接用于决策。

基础设施瓶颈:多模态数据(文件、音频、视频)纳入后,数据量级从几个TB升级到PB级别。海量数据的处理需要GPU支撑,传统CPU难以胜任。同时,非结构化数据的管理方式不同于结构化数据,以往的元数据管理(如Hive表结构)已经失效。

六、多模态数据的广泛应用场景

除了高质量数据集和可信数据空间,还有大量数据应用需要底层多模态数据平台的支撑:

医疗诊断:整合患者就诊数据、拍片数据、健康体检数据,形成智能诊断方案。

内容创作:整合作者以往的写作数据和偏好,通过AI辅助生成创作内容。

智能客服:整合客户咨询记录、偏好、购买记录以及产品知识库、问答知识库,实现智能客服。

智能制造:通过生产车间的摄像头和传感器采集生产环节数据,结合生产系统数据,实现智能制造。

金融风控:整合用户借款记录、还款记录、消费习惯及关系网络,支撑金融风控场景。

教育、自动驾驶等场景同样涉及多模态数据平台的要求。

为了支撑这些场景,多模态平台需要采集企业内部外部的结构化与非结构化数据,让数据从单一系统维度走向多模态、多维化,使数据应用更加丰富和完善。

七、传统数据平台的"能力天花板"VS"多模态平台多维融合"

以往的传统数据平台在支撑上述应用时,存在以下问题:

数据类型汇聚不统一:传统平台主要采集结构化数据(如Oracle、MySQL、SQL Server等),对于非结构化数据(文本、图片、音频、视频)采集能力缺乏,需要不同技术工具,存储在不同位置(文件服务器、对象存储),形成割裂局面。

多模态语义搜索能力不足:传统平台主要支持结构化数据的二维表形式,搜索多采用关键词索引,难以支持向量化语义搜索。非结构化数据的处理需要专业算法人员(如图片关键词提取、文档切分、视频内容提取),上手门槛高。

元数据管理不统一:传统平台管理MySQL、Hive等元数据,而文件、视频、音频等可能存储在网盘、FTP、语雀、钉钉等不同平台,元数据无法打通,权限不一致,带来安全风险。

Data与AI流程割裂:传统数据平台主要为数仓而生,支持BI图表和仪表盘;而AI应用对非结构化数据要求高,两者技术栈和团队不同,开发和运维流程割裂。

基于以上问题,新型多模态平台需要具备以下能力:

多模态数据的统一采集:无论结构化、半结构化还是非结构化数据,无论存储在何处,都可以通过统一平台采集,实现技术栈和操作习惯的统一,避免数据孤岛。

统一的治理能力:通过GPU相关算子处理非结构化数据,并与结构化数据做关联或联邦计算,形成有价值的数据资产或数据集。

语义化搜索与知识构建:支持关键词、语义化、索引化搜索,统一管理元数据。用户可以在权限范围内查看结构化和非结构化数据(文件、音频、图片、系统表等),并进行统一搜索。

智能化的多模态数据处理与标注:平台内置大量处理算子,通过低代码方式快速解析文件、图片、音频,支持智能标注或人工标注,降低数据清洗成本,提高效率。

九、双轮驱动:Data for AI 与 AI for Data

在实施过程中,通过平台与方法的结合,可以落地高质量数据集和可信数据空间,支撑AI应用的快速发展和生产上线。我们总结出两种模式:

Data for AI · 数据供给侧

通过采集、清洗、标注、增强、评估等关键技术,为各种AI应用提供高质量的数据语料,最终保证产出的数据干净且可用,从而降低大模型的幻觉率,提高指标问数、ChatBI等AI应用的准确率。

AI for Data · 治理智能化

利用AI技术提高数据集处理和多模态数据形成过程中的效率。例如,传统治理需要人工逐个建立采集任务、清洗任务(从ODS层到DWD层等),并手动维护。而AI可以自动化建模、标注、数据约束和管控,大大提升数据治理效率。

通过 Data for AI 和 AI for Data 的双轮驱动,可以使多模态数据落地过程效率大幅提升,降低实施周期和成本。

十、未来三大演进方向

基于多模态数据平台和治理方法论,未来有三大核心演进方向:

① 数智一体化:以往数据治理和AI是两套平台建设。未来,数据平台、数据治理和AI平台应合二为一,在平台中内置AI能力(如向量搜索、智能问答、知识库),整合大模型、向量库、搜索引擎等技术组件,通过一道平台满足治理自动化、标注和向量化要求。

② AI自动化治理:基于数智一体平台,将大量重复性、有规则性、可定义SOP的治理工作交给AI完成,例如自动生成数据标准、自动检测不符合标准的数据、自动生成数据模型和ETL任务等。只要可以明确定义并有足够语料,AI就可以执行,从而降低实施工作量、成本和上线周期。

③ 数据安全内置:在平台的存储、加工各环节内置数据安全组件,包括文件/表的权限控制、数据脱敏加密、数据质量管控等,达到数据合规和最小颗粒度使用。

十一、袋鼠云多模态数据平台产品架构

基于上述理解,袋鼠云研发了多模态数据平台,产品架构如下:

左侧数据来源:包括各种关系数据库(Oracle、MySQL等)、MPP数据库、Hadoop体系数据,以及半结构化/非结构化数据(日志、网页、文档、图片、音视频等)。

统一数据集成:将上述数据采集到平台存储。

存储层:内置对象存储(MinIO、S3)、数据湖、向量库、图数据库等多样化组件,满足不同数据的存储和使用需求。

模型服务层:提供模型管理和服务能力,可对接DeepSeek、通义千问、豆包等第三方模型,进行管理、微调和推理。

统一元数据管理:通过Graphine等多模元数据管理组件,将非结构化和结构化数据的元数据统一管理。

调度层:实现CPU和GPU混合调度,特别是GPU调度支持非结构化数据的并发解析识别。

计算层:提供离线计算、实时计算、机器学习等处理能力。

开发治理层:统一的开发UI界面,支持低代码开发、数据质量检测、数据血缘、数据安全等能力。

AI应用:为问数Data Agent、智能客服、企业知识库、资产门户、知识图谱、高质量数据集等提供统一的数据能力。

多模态数据平台产品架构图

通过这一平台,企业可以快速构建AI应用所需的所有底层数据。

十二、多模态数据平台的终极形态

以往的数据平台核心是提供结构化数据整合能力,最终支撑BI报表、分析报表或门户等应用。但在AI时代,许多企业在建设AI应用时发现:问数、知识库、搜索不准或错误,准确率不高。回归问题本质,核心还是底层数据集和平台能力不够------数据不全面、语义度不高,导致AI应用难以在生产环境中发挥作用。

在AI时代,数据已从以往的辅助决策、辅助资源,升级为核心生产资料。企业AI能否落地,核心依赖于底座的高质量数据集能做到什么程度,平台能否支持高质量数据集的快速落地和效果呈现。

因此,我们总结未来产品的几大形态:

① 构建统一底座:抛弃以往数仓仅解决结构化数据孤岛的思路,多模态平台要将结构化和非结构化数据全域接入、灵活处理。

② AI Native 的智能流水线:通过AI能力处理多模态数据,加速实施落地周期,提高资产转化效率。

③ 可信数据空间构建:平台上承载了企业所有数据(结构化和非结构化),数据的管控颗粒度和权限便捷度是核心生命线。需要构建可信数据能力,统一管控各类数据,方便、安全地供下游应用使用。

④ 敏捷智真创新:AI技术快速演进,数据来源快速膨胀。结构化数据在企业中可能只占10%甚至5%,而非结构化数据将占到90%甚至95%以上。这对大规模存储、处理、搜索提出了更高要求。平台需要支持海量数据存储管控计算,快速集成新组件,支持敏捷创新,如多模态数据存储和CPU/GPU混合调度。

相关推荐
小红的布丁2 小时前
BIO、NIO、AIO 与 IO 多路复用:select、poll、epoll 详解
java·数据库·nio
Elastic 中国社区官方博客2 小时前
在 Elastic 中使用 OpenTelemetry 内容包可视化 OpenTelemetry 数据
大数据·开发语言·数据库·elasticsearch·搜索引擎
Mike117.2 小时前
GBase 8a UNION 和 UNION ALL 的使用边界
大数据·数据库
u0107475462 小时前
mysql如何实现高可用集群架构_基于MHA环境搭建与部署
jvm·数据库·python
一 乐2 小时前
工会管理|基于springboot + vue工会管理系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·论文·毕设·工会管理系统
qq_380619162 小时前
如何在phpMyAdmin中处理特殊字符账号名的授权_反引号的正确包裹
jvm·数据库·python
2201_756847332 小时前
HTML函数在老旧浏览器运行慢是硬件问题吗_软硬协同分析【教程】
jvm·数据库·python
志栋智能2 小时前
当巡检遇上超自动化:一场运维质量的系统性升级
运维·服务器·网络·数据库·人工智能·机器学习·自动化
Micro麦可乐2 小时前
Redis只会用来做缓存?解锁Redis非缓存的九个应用场景,90%程序员不知道的隐藏技能
数据库·redis·缓存·消息队列·分布式锁·延迟队列·布隆过滤器