Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式

「新的风暴已经出现!」

当我们谈论 AI Infra 的时候,我们在谈论什么?

年初,DeepSeek 前脚带来模型在推理能力上的大幅提升,Manus 后脚就在全球范围内描绘了一幅通用 Agent 的蓝图。新的范本里,Agent 不再止步于答疑解惑的「镶边」角色,开始变得主动,拆解分析需求、调用工具、执行任务,最终解决问题......

这质的变化引起的效应如投石入水,激起的涟漪不断向外蔓延......Agent 成为 2025 年 AI 的主流叙事,国内外 AI 厂商纷纷布局 Agent。数据显示,全球 Agent 市场规模已突破 50 亿美元,预计到 2030 年这一数据将达到 500 亿美元规模,「百 Agent」混战时代开启。

而对于万千具体场景中的企业而言,Agent「自主执行并管理各类任务」的角色转变,意味着一场新的生产力变革,没有人想被时代落下,于是都开始轰轰烈烈构建起属于自己的 Agent。

然而,事情没那么简单。很多企业部署了 Agent 之后,发现并没有达到预期效果,现实与理想之间的巨大落差开始让他们疑惑:难道 Agent 只是一场夸大的「纸上谈兵」?

无疑,技术的进步肉眼可见,Agent 的实用也并非虚假宣传,这是出现这种情况更深层的原因在于,业界对 Agent 平台的狂热追捧下陷入一个误区:把 Agent 平台、Bot 框架等当作 AI Infra。

怎么理解?

Agent 平台其实属于应用层,核心在于任务的调度与交互,它本身并不具备底层的支撑能力。而对于真正的 AI Infra,核心则应该是驱动模型持续优化的数据闭环。打个比方,企业投入巨量资源打造和部署的 Agent 就像是一辆 F1 赛车,而企业自身的基础设施却还是一条泥泞不平的土路;纵然性能再强,F1 赛车也无法在这条路上正常地跑起来。

因此,Agent 想要发挥出强大的功能,必需可靠的 AI Infra!也因此,当 Agent 火爆的时候,AI Infra 的身价也随之水涨船高。

赛迪《2025 中国 AI Infra 平台市场发展研究报告》显示,在 Agent 市场急速扩大的同时,中国 AI Infra 平台市场规模预计 2025 年达 36.1 亿元,同比增长超 86%。

AI Infra 的重要程度可见一斑。

而当前企业在部署搭建 Agent 的时候,其实是做了很多准备的,花心思大手笔购买 GPU,选择性能更好、更适用自身的大模型,仔细对比各家的 Agent 产品,认为把这些基础层的准备工作做到这种程度,部署的 Agent 功能一定特别强大。

但显然,Agent 平台无法单独构成 AI Infra。Agent 平台所体现的核心价值在于任务的理解、规划、调度、工具调用,以及人机、机机交互等,并不具备底层基础支撑能力。

那当我们在谈论 AI Infra 的时候,我们到底在谈论什么?

AI Infra 的核心在于结构层能力的构建,包括分布式计算、数据调度、模型服务、特征处理与部署编排。这些能力为上层的模型训练、推理与交互提供算力、弹性与资源调度基础。

更进一步讲,AI Infra 的核心运行逻辑是:以数据驱动模型优化,通过数据的「采集 --- 处理 --- 应用 --- 反馈 --- 优化」闭环,形成持续迭代的正向增长循环,最终实现「数据 --- 模型 --- 应用」螺旋式上升。

从这个层面来看,数据,是 AI Infra 运行的「灵魂」般存在,而很多企业在部署 Agent 的时候,其实是没有将自身内部数据价值发挥出来,只是一味强调 Agent 功能。未能触及「灵魂」的变革后果就是部署后的 Agent 功能往往「流于表面」,无法与企业自身的业务相契合,发挥真正作用。

因此,在 AI 技术落地成主流的当下,企业要想构建自己的 AI 能力,不能忽视数据的重要性,正如著名 AI 学者吴恩达所言:「AI 正在从以模型为中心转向以数据为中心」。数据往往是企业取得差异化竞争的关键所在。而面对 Agent 时代,数据基础设施的范式也发生了新变化。

Data&AI 数据基础设施,才是 AI 时代 Infra 新范式

在大模型落地千行百业的当下,数据对于企业的重要性不亚于模型的重要性。因为企业级 AI 需要的不是数据规模的大小,而是专业、深入核心业务环节的高质量数据,这样「喂养」出来的大模型,才能给企业带来优质生产力。事实上,正如甲骨文联合创始人和董事长 Larry Ellison 说的那样:「我们正在进入数据驱动的自动化企业时代。」

因此,当前企业的核心竞争力正从数据资产规模向数据价值转化效率迁移。谁能快速完成迁移,谁就掌握了发展的主动权。

但是对于企业来说,这并不容易。

首先,在传统的互联网叙事下,企业的数据价值更多是一种静态「资产」。换句话说,那时候的数据大都是结构化数据,就像是存放于仓库中的货物,只要做到不用的时候存储妥善,需要的时候调取方便,就满足了基本的业务需求。

基于此,彼时的数据库或数据平台的核心作用也仅仅局限于「存好、取快」,通过结构化存储架构确保数据不丢失、不损坏,通过优化索引和查询逻辑让数据调取更高效。

但随着 AI 技术发展,尤其是大模型时代的到来,从大语言模型到多模态模型,模型模态的变化也带动对训练数据需求的变化:数据规模呈现海量级,数据类型从单一结构化转向结构化、非结构化、半结构化的复杂多样,对实时性要求高。

很明显,传统数据基础设施根本无法满足这一需求。

而最为突出的问题在于「数据孤岛」,在早期,企业内部针对具体的业务需求,往往选择特定的工具或平台来管理数据,长此以往,企业的业务系统、用户端数据、供应链数据往往分散在不同的数据库中,格式不统一、标准不兼容,就像是「烟囱」式存在,互为「孤岛」,系统集成难题显著,数据处理过程艰难且漫长。正如 Databricks 支持的一份报告中指出的:「数据孤岛依然是 AI 的重要组织性障碍。受访者将消除数据孤岛和数据集成不足列为管理 AI 数据时面临的两大挑战之一。」

这也就意味着模型与数据的前进步伐不协调,就像是齿轮错位,整台机器无法正常运转。

另外,还有一个容易被忽视的问题,就是传统数据平台与 AI 工具的「割裂」,进一步加剧了企业 AI 落地的困境。

怎么理解?在大多数企业中,数据平台与 AI 往往是两个团队或沿着两条各自的技术路径发展,前者在 AI 介入不足的情况下,对多模态数据的处理效率极低,甚至还依赖手动标注、规则校验等「人工数据治理模式」,耗时长、成本高、易出错且响应慢...... 数据价值始终难以被充分激活,长期以往让企业陷入「有数据无智能」、「有智能难落地」的双重困境。可以说,数据系统脱节仍然是企业 AI 面临的最持久且成本最高的障碍之一。

基于此,企业需要重新构建新一代 AI Infra。

新一代 Data&AI 数据基础设施与传统大数据平台 / 数据基础设施的代际差异

一方面,数据与平台要协同起来。数据平台的定位必须从「被动的容器」 升级为「主动的生产力载体」,数据平台的核心作用不再局限于存储数据,更要能生产、处理面向 AI-Native 的数据,成为数据的 「产地」与 「工艺」。

具体来说,「产地」要求平台需具备主动生成数据的能力,例如通过合成数据技术补充稀缺场景样本;通过数据增强技术扩展数据多样性(如对图像进行旋转、裁剪以丰富训练样本)。而「工艺」则要求平台能够建立起一套动态的质量控制体系,从数据采集、清洗、标注到迭代优化,形成全流程的自动化治理能力,让数据在流转中持续提升质量。

而从这一层面上来看,高质量数据已突破「静态资产」的限制,进入「流动资产」范畴,会随着模型训练、反馈,不断更新,随着业务场景变化实时调整,是会依托数据平台能力持续产出与验证的动态过程。

另一方面,Data 与 AI 的割裂局面必须破冰、走向融合、共生。数据在为 AI 发展提供「养料」的同时,AI 技术也在促进数据平台的能力提升。数据与 AI 不再是分离的两套系统,而是基础设施的一体两面,更准确地说,Data&AI 数据基础设施,才是 AI 时代 Infra 新范式。

在这一新的语境中,Data&AI 数据基础设施是为支撑 AI 规模化落地而构建的一体化基础软件平台,核心目标是打通数据存储、治理、计算与 AI 模型开发的全链路,实现「Data for AI」和「AI for Data」的双向赋能。

其本质可以说是传统大数据平台的升级形态,但在 AI 原生架构重构数据处理范式的时代要求下,技术架构与实际价值均有了代际的提升,该基础设施是满足企业智能化转型的底层需要,是核心数字底座。

赛道玩家众多,谁能破局?

其实,随着 Agent 的火爆,在全球范围内,一场围绕 Infra 的智能升级与重构在轰轰烈烈地展开。

云数据平台 Snowflake 通过收购 Informatica、 推出 AI Apps 平台等操作,持续加大在 Data&AI 基础设施上的布局;Databricks 从 2023 年起开始陆续收并购 Okera、MosaicML、Arcion、Einblick 等数据基础设施企业,来强化自身的 Data&AI 基础设施属性;国内华为、字节跳动、百度等厂商也在推出「模型 - 数据一体」的工程平台......

其实不难看出,当前整个市场上面向 AI 原生的 Data&AI 技术融合基础设施软件产品尚在探索期,赛道仍处于早期爆发阶段,玩家众多,但更多的数据厂商或 AI 厂商更多还是围绕过去自身在原有赛道和自有产品功能,来加速 Data&AI 基础设施的融合。

具体来看,这一赛道玩家主要分为四大类。

第一类 AI 工具新兴厂商。这类主要是指围绕 AI 场景化做定制化 Agent 服务,以及 AI Agent 开发工具的新兴厂商,比如以爱数、数新智能等为代表的 AI 工具链厂商;以 Dify 为代表的 AI Agent 服务商等,都属于这一类。

这些厂商主要业务目标是服务客户 AI 场景的快速落地,没有数据底座能力支撑,场景定制难以规模化,长期会成为数据应用层核心竞争厂商,但不会形成 Data&AI 一体化基础软件产品。

第二类是传统大数据平台厂商。这类是以聚焦在国产 CDH 替换类业务为主营业务的传统大数据平台厂商,比如星环、明略、东方金信等,这些厂商在行业内深耕多年,经验丰富,有一定的大数据平台项目和客户积累,可同时自身也正处于转型期,目前在 Data&AI 数据基础设施一体化建设的实施经验和案例上相对较少。

第三类是平台型综合厂商。这类玩家主要是指阿里、华为、腾讯等平台型综合厂商,基于其丰富的产品线整合后具备 Data&AI 基础设施软件产品基础能力,品牌影响力大。但是问题在于,由于体系庞大、业务多,内部产品分属不同团队,架构上仍然割裂。前面说到,目前这类玩家也在基于已有的模块化产品进行整合、协同,有较好的品牌力。

第四类是专业垂直厂商。这一类玩家是指像 Databricks 这样的专业型厂商,他们基于在这一方向的长期深耕,累积了经典头部客户的落地实践,同时也打磨了技术,率先实现了面向 AI-Native 的 Data&AI 一体化基础设施软件成熟产品,并形成了一套自己的成熟打法。可以说,这类厂商在 AI 时代 Data&AI 一体化基础设施赛道取得先发优势,随着在客户侧的逐渐落地,优势会愈发明显。

其实,从各类玩家所具备的能力不难看出,当前企业在构建 AI 能力时,最为需要的就是一体化、低代码、AI 与数据原生融合的一体化基础软件平台工具,允许企业开发者以更加灵活的方式来进行对存储在数据库、数据湖中的多模态数据进行实时提取、治理标注、以及高质量数据集的管理进行面向业务场景的模型训练和智能体开发。

因此,像 Databricks 这样的专业垂直厂商的核心特征是要基于 AI-Native 架构驱动下,具备三大能力:

一是多模态数据融合处理,支持对数据库、数据湖中的结构化 / 非结构化数据(文本、图像、音视频)进行实时提取、治理与标注,生成高质量训练数据集;突破传统平台仅支持单一数据类型的局限,适配大模型多模态输入需求。

二是形成 Data&AI 一体化闭环,支持低代码开发,允许企业开发者灵活调用数据与 AI 工具链(如标注、训练、Agent 开发);支持端到端工作流,覆盖数据治理 → 模型训练 → 智能体部署 → 业务反馈全流程,消除数据与 AI 割裂痛点。

三是具有动态异构智能调度能力,按需分配 CPU/GPU 资源;模型训推一体化,降低推理延迟;可快速生成场景化智能体。

只有这样,才是符合当下 Agent 时代,企业加快构建 AI 能力的数字新基建 。

而围绕这些核心特征与能力,国内正在兴起一股构建 Data&AI 一体化数据基础设施的浪潮,市面上也有相应的产品或平台涌现。

其中,一种名为「AI-in-Lakehouse」(Lakehouse 意为湖仓一体)的技术路径颇具代表性。该思路的核心是将 AI 能力深度融入并内嵌于湖仓一体架构中,而不是将 AI 能力从外部接入进去。如此一来,便能将湖仓一体引擎、OLAP 数据治理和 AI 技术统一,形成精简高效的「All-in-One」技术解决方案,从而破解了让很多企业「头大」的传统数据与 AI 割裂难题。

国内厂商科杰科技率先践行了这一思路,并将其应用在了刚刚完成升级的 Data&AI 一体化平台 KeenData Lakehouse2.0 中。

KeenData Lakehouse2.0 采用 AI-Native 智能驱动架构,实现 Data&AI 工程一体化能力。平台面向大型组织进行数据与 AI 体系化落地,提供数据集成、离线实时开发、多模态计算、数据治理、数据集管理、AI 模型构建、训推一体至 Agent 开发全链路闭环的基础设施产品。

为此,科杰科技一方面以 AI-Native 为核心设计理念,将智能化能力深度植入系统基因,构建了具备自主进化能力的智能数据基础底座 ------ 其技术架构与核心能力均围绕 AI 高效处理数据、数据智能支撑 AI 的双向驱动展开,涵盖了 MaaS 自推理、Agent 自迭代、数据全生命周期智能化三大核心能力。

另一方面,科杰科技产品定位 Data&AI 一体化数据智能平台,面向大型组织提供完备的 Data&AI 数智基础设施能力, 让数据与 AI 的融合成为了驱动企业发展和创新的关键引擎。

由此可见,科杰科技属于赛道中的第四类玩家,是一家典型的面向 AI 原生的 Data&AI 数据基础设施服务商。

科杰科技构建的企业级湖仓一体数据智能平台 KeenData Lakehouse,通过架构创新与技术突破,无缝覆盖数据治理、资产管理、分析建模到 AI 开发与服务全周期,贯通数据汇聚、融合、管理与智能应用的全流程闭环。基于此,企业可以大幅简化管理数据与应用数据的难度,实现体系化的数据开放赋能与规模化的数据智能落地。

这种一体化模式的实际价值,已在多个行业的头部企业的业务中得到了验证。

比如,中国石化依托科杰科技 Data&AI 一体化平台,构建统一数据中心与治理体系,完成对新增的大数据进行高效存储和计算,并且进一步结合业务场景,面向规划、工程决策、工程一体化平台提供数百个服务支撑。以 AI 驱动全量业务及科研数据管理共享,加速数据向资源、资产的数智化转变,提升运营效率,实现链条一体化运营,是集团数智化运营迈入高效协同新阶段重要标志。

中国一汽基于科杰科技 Data&AI 一体化平台,零代码 / 低代码实现一站式数据开发,支持可视化编排、多端查询、资产开放及跨平台智能调度;赋能业务场景智能应用,如机器人客服、AI 驱动的实地验证等功能及实时数字孪生;构建行业智能数据画像,结合车辆与经销商 / 服务商数据,刻画多维度指标,支撑销售分配等各类场景。

随着模型技术不断发展,Agent 市场持续爆发,数据与 AI 进一步深度融合,Data&AI Infra 将成为智能时代的数字基建已是大势所趋,诸如此类的案例还会越来越多,而科杰科技一直在坚持的就是遵循着面向 AI-Native 的 Data&AI 一体化路径,为行业验证这条路的可行性。

结语

智能时代的浪潮已经来临,而 Agent 仅仅是拍打在岸边的第一朵浪花。真正的深层力量,源于海面之下那座由数据与 AI 共同构筑的庞大基座。

对于今天的企业决策者而言,最关键的问题已不再是「是否要拥抱 AI」,而是如何为 AI 构建一条真正畅通无阻的超级公路。选择继续在割裂的「土路」上艰难前行,还是投资于面向未来的「一体化赛道」,这个战略决策的价值,将在未来几年内被无限放大。

而诚如科杰科技,已在这一方向深耕多年。

毕竟,当所有人都拥有了 F1 赛车,那条路,就是唯一的胜负手。

相关推荐
文弱_书生12 分钟前
为什么神经网络的权重矩阵具有低秩特性?如何理解和解释?
人工智能·神经网络·矩阵
Bar_artist13 分钟前
微软推出革命性AI安全工具Project IRE,重塑网络安全防御新范式
人工智能·安全·microsoft
cver12344 分钟前
人脸情绪检测数据集-9,400 张图片 智能客服系统 在线教育平台 心理健康监测 人机交互优化 市场研究与广告 安全监控系统
人工智能·安全·yolo·计算机视觉·目标跟踪·机器人·人机交互
技术老金1 小时前
LangGraph入门与避坑指南:从ReAct到复杂流程编排
人工智能·python
大佬喝可乐1 小时前
卷积神经网络(CNN)全面解析
人工智能·神经网络·cnn
martinzh1 小时前
上下文学习的神奇魔法:轻松理解AI如何无师自通
人工智能
Hcoco_me1 小时前
【4】Transformers快速入门:自然语言模型 vs 统计语言模型
人工智能·语言模型·自然语言处理
不焦躁的程序员2 小时前
选择gpt-5还是claude-4-sonnect
人工智能·gpt·cursor
算家计算2 小时前
阿里开源首个图像生成基础模型——Qwen-Image本地部署教程,超强中文渲染能力刷新SOTA!
人工智能·开源·aigc