阿里云OpenLake及行业解决方案年度发布,助力千行百业Data+AI一体化融合

近日,在2025云栖大会阿里云发布OpenLake解决方案全新升级,并针对行业Agentic AI应用的挑战,全新发布全模态数据预处理、大模型后训练、具身智能、AI加持下的一站式湖仓迁移等解决方案。同时论坛通过Data+AI圆桌派与广汽集团、卓驭科技、海亮科技、兴云数科、趣丸科技、快手、硅星人、DataFun社区等客户及媒体现场探讨各自行业与领域Data+AI一体化融合。

一、阿里云OpenLake解决方案年度发布

阿里云智能集团计算平台事业部产品负责人徐晟详解阿里云大数据与人智能产品线的新功能发布及阿里云OpenLake 解决方案。Agentic AI时代的数据架构演进中阿里云推出了以 OpenLake 为核心的大数据搜索AI一体的全模态数据湖仓解决方案,通过DLF在统一开放的湖仓上实现了结构化、半结构化、非结构化数据的统一存储与管理,通过所有计算引擎的湖仓升级支持一份数据多个计算引擎(MaxCompute、Hologres、Flink、EMR、PAI、AI搜索等)协同计算,使得湖仓成为Data 和AI 的共同底座。同时通过DataWorks提供的 OpenLake Studio 可对大数据和AI任务的开发和发布提供一体化开发体验以及Agent形式的服务支持。阿里云大数据AI产品线人工智能平台PAI、MaxCompute、Hologres、DataWorks、AI搜索、E-MapReduce、Flink、DLF等产品发布多项能力升级,不仅进一步提升了产品的性能与功能,还优化了用户体验,助力企业更高效地实现数据价值挖掘与AI应用落地。无论是数据处理、存储、分析,还是模型训练与推理,阿里云大数据AI平台都在持续创新,为企业提供更强大的技术支撑,推动数字化转型与智能化升级。

阿里云OpenLake升级全模态数智一体企业级解决方案:

阿里云OpenLake通过DLF全新支持 Paimon Table、Iceberg Table、Format Table(虚拟概念,支持Parquet、ORC、Avro、CSV文件格式,表类型以文件格式为命名)、 Lance Table、 Object Table 共5类目录服务,覆盖结构化数据的兼容模式和独立生态模式,对象存储文件和AI打包AI等多种形态,全面支持数据计算需求、多模态检索需求和AI模型需求。同时在工作台层面提供 OpenLake Studio 可对大数据和AI进行任务编写,发布等。 在存储层面也全面支持了全托管存储(可以更安全和高效的使用OSS存储,管控表级和列级权限,管理引擎和存储的访问账号等),结合引擎全系支持AI Function以后,阿里云OpenLake解决方案升级成为全模态数智一体企业级解决方案。

在行业实践上, OpenLake助力诗悦游戏降本增效,总成本降低38%,计算资源下降17%,以低成本+高稳定性+高性能承接未来各种业务应用。互联网教育企业绚星智慧通过OpenLake让同一份数据支持Flink,Spark,StarRocks多种引擎对接,满足不同场景的用数需求,整体成本降低50%,查询性能提升300%,端到端数据10分钟可见。

二、阿里云大数据AI解决方案年度发布

阿里云智能集团计算平台事业部解决方案负责人魏博文梳理如何帮助客户构建强大的 Agentic AI,包含了Model、AI Infra、Data Infra、Tools for Agentic四大关键要素,让Agentic AI成为链接数字世界与物理世界的智能中枢,凭借阿里云大数据AI平台在各个行业丰富的实践,发布多种大数据AI解决方案。

全模态数据预处理解决方案可实现视频、图像、文本等全模态数据接入,实现一套数据多引擎复用大幅减少了数据冗余和数据存储成本,提供MaxFrame/Spark/Ray提供分布式自定义 Python 计算服务,同时在Sql引擎中增加了AI Function 调用能力,实时调用大模型,进行多模态数据预处理。针对海量数据样本筛选提供了全文检索引擎,支持全模态数据、向量、文本多种输入的混合检索。数据预处理为大模型后训练,智能辅助驾驶,具身智能,Agentic AI agent提供了高质量的数据进行微调,让企业可以完成从数据预处理到模型迭代、模型训练的Data+AI一体化链路。

大模型后训练解决方案通过paiMoE进行大尺寸MoE模型训练,在Qwen3训练加速比提效上提效3倍。paiRL引擎重塑强化学习训练架构,实现 PartialRollout,Multi-turn 和推理训练分离的三重优化。PAI-EAS提供更快部署(冷启动时长降低 89.8%,扩容时长降低 97.6%)、更低时延(TTFT 降低 20.3%,TPOT 降低 70.6%)和更高吞吐(TPS 提升 71.0%)的推理服务。

具身智能数智融合解决方案面向具身智能行业,提供了从数据采集生成、数据预处理、模型开发仿真、模型部署压缩等全链路能力。基于底层多种算力,提供多种具身模型快速拉起,一键部署通义万相、NVIDIA Cosmos等生成式AI模型,一键拉起IssacLab和IssacSim仿真环境。其中PAI-TurboX能够为具身模型训练推理提供加速引擎,在Openvla训练优化上有显著提升。

AI加持下的一站式湖仓迁移解决方案提供一站式湖仓迁移中心,基于集群探查与搬站过程上下文,智能化编排迁移进程。从集群盘点、数据迁移、作业迁移、数据校验、集群双跑等流程,AI助力迁移整个链路向自动化迈进。

三、Data+AI圆桌派,探讨千行百业Data+AI一体化融合

在 Data+AI 系列圆桌交流中,来自汽车、企业智能化和互联网娱乐领域的行业领袖、知名媒体和阿里云专家齐聚一堂,展开深度对话,共同探讨大模型时代下Data+AI协同演进的技术路径与产业实践。

Data+AI圆桌派:汽车自动驾驶

在硅星人合伙人、主编王兆洋的主持下,广汽集团基础架构负责人王麒钧、卓驭科技基础设施架构部总监王鹏与阿里云智能集团计算平台事业部解决方案负责人魏博文三位技术领袖围绕"端到端时代下的智驾研发新范式"展开交流。嘉宾一致认为,自动驾驶正从技术验证迈向规模化落地的关键拐点,数据、算法与算力的协同演进成为核心驱动力。随着端到端大模型和VLA生成式方案的量产上车,智驾算法仍遵循Scaling Law,对训练算力与数据处理效率提出指数级增长的需求。面对高质量的数据生产、训练效率、稳定性与成本控制等挑战,三方分享了基于阿里云大数据AI平台的创新实践。展望未来,行业将加速向更彻底的端到端与世界模型演进,而阿里云大数据AI平台提供的能力,正成为车企构建下一代智驾技术底座的核心支撑。

Data+AI圆桌派:知识库与AI应用

在DataFun社区创始人王大川的主持下,海亮科技人工智能研究院副院长汪涛、兴云数科AI产品副总经理曾天保与阿里云高级解决方案专家曹志,深入探讨了RAG与AI应用在垂直场景中的落地经验。在大模型时代,高质量、多模态数据是AI应用的核心"原料",但企业普遍面临数据孤岛、格式分散与治理难题。海亮科技企业将多模态的数据结合大模型和小模型来进行解析、搭建大模型Agent应用,打造了一站式AI应用开发平台,全面升级"教育+AI"全场景解决方案;兴云数科倾向"知识库优先、微调为辅"的策略,大模型结合RAG技术,有效避免大模型幻觉,显著提升回答准确性和可解释性。阿里云高级解决方案专家曹志从技术视角解读,阿里云大数据AI平台将不断推动通用大模型将与垂直领域知识体系深度融合,让企业从"能用AI"向"用好AI"迈进。

Data+AI圆桌派:互联网与娱乐

趣丸科技天谱乐事业部研发负责人刘鑫、快手安全算法中心负责人刘梦怡与阿里云智能集团高级解决方案架构师杨祎、阿里云智能集团解决方案架构师蔡浞共同交流大模型在互联网娱乐领域的落地。多模态AI正从"加分项"变为产品标配,广泛应用于内容生成、互动推荐与安全风控。趣丸科技基于阿里云人工智能平台 PAI 构建了高效、可扩展的AI工程体系,支撑语音、图像、文本等多模态模型的快速迭代。在数据层面,海量非结构化数据的处理与高质量标注成为主要挑战,趣丸科技和快手通过数据湖架构与智能数据管道实现统一管理与高效训练。在安全场景,快手为大家带来快手安全大模型核心技术分享。展望未来,Data+AI深度融合将成为互联网娱乐产品的核心竞争力,为用户提供个性化、沉浸式的产品体验与升级。

无论是OpenLake解决方案的升级,还是多种大数据AI行业解决方案,展现了阿里云大数据AI平台面向AI时代的战略布局和技术领先性,助力企业实现从数据价值挖掘到AI应用落地的全链路优化。同时,阿里云将与各行业领袖和媒体持续保持深入交流,助力千行百业Data+AI一体化融合,为企业在AI时代的创新与实践提供了坚实的技术底座与无限可能。

相关推荐
小松XXS4 小时前
elasticsearch面试八股文
大数据·elasticsearch·面试
哈哈很哈哈5 小时前
Spark核心Shuffle详解(一)ShuffleManager
大数据·分布式·spark
星川皆无恙6 小时前
电商机器学习线性回归:基于 Python 电商数据爬虫可视化分析预测系统
大数据·人工智能·爬虫·python·机器学习·数据分析·线性回归
字节跳动数据平台6 小时前
极氪汽车×火山引擎:AI数据专家“上岗”,注入“分钟级”数据洞察力
大数据
智慧化智能化数字化方案7 小时前
【精品资料鉴赏】873页5A级智慧景区信息化规划设计方案
大数据·智慧旅游·智慧景区·5a级智慧景区
孟意昶7 小时前
Spark专题-第二部分:Spark SQL 入门(8)-算子介绍-sort
大数据·数据仓库·sql·spark
芒克芒克7 小时前
基于完全分布式模式部署Hadoop(喂饭教程)
大数据·hadoop·分布式
云虎软件朱总7 小时前
不只是配送:同城配送系统如何成为新零售时代的核心基础设施
大数据·零售
Lx3528 小时前
Hadoop生态系统集成:与Spark、HBase协同工作技巧
大数据·hadoop