从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布

EMR 发展历程回顾

自 2016 年首次发布以来,阿里云 EMR 始终以开源生态为基石,逐步构建起覆盖 Hadoop、Hive、Spark、StarRocks 等主流开源计算和存储引擎的公有云大数据平台。九年间,EMR 产品技术不仅支撑了阿里巴巴集团内部如淘宝闪购、A+等核心业务的海量数据处理需求,也服务了互联网、金融、零售、制造等众多行业的公有云客户。从最初的开源组件版本和服务管控,到如今面向湖仓一体、实时智能场景的企业级数据平台,EMR 的演进轨迹,本质上是在"开源开放"的基础上向"高效智能"的持续跃迁。

AI 时代对大数据处理系统的新挑战

随着大模型和生成式 AI 的普及,数据系统的边界正在被重新定义。用户不再满足于编写 SQL 或配置作业,而是期望通过自然语言直接表达分析意图;系统也不再仅处理结构化表格,还需融合流数据、文本、向量、半结构化日志等多模态信息。更重要的是,传统的批处理、OLAP、机器学习、全文检索等能力,正被要求在一个统一平台内协同工作。这种融合趋势对底层架构提出了更高要求:既要极致性能,又要高度自治;既要开放兼容,又要开箱即用。而当前的大数据系统在存算分离架构下面临的元数据风暴、串行 I/O、低效读取等问题,已成为制约 AI 时代数据价值释放的关键瓶颈。

高效:开箱即用,极致性能

面对上述挑战,EMR 将"高效"作为核心突破方向 。我们对 EMR on ECS 产品的 I/O 路径进行了全链路优化,重点解决存算分离架构下的三大性能瓶颈。针对元数据风暴问题,通过批量并发处理机制,将元数据获取时间从分钟级降至秒级;针对计算与 I/O 串行等待,引入向量化异步预取和动态自适应预读策略,使计算与数据加载并行执行;针对小文件和离散列读带来的零散 I/O,实现请求合并与并行预打开,显著提升吞吐能力。实测表明,TPC-DS 1TB 查询开箱性能提升 40%,小文件密集型场景算力节省高达 90%,真正实现"开箱即用"的高性能体验。

在此基础上,Stella------阿里云自研的企业级 StarRocks 内核正式发布。 Stella 深度协同 DLF 与 Paimon,全面优化湖仓读写路径,内表与湖表查询性能均提升 100%,DV 表查询性能更是提升 300%。在淘宝闪购业务中,系统支撑万级 QPS,查询耗时减少 80%;阿里爱橙业务整体性能提升 150%。尤为突出的是,EMR Serverless StarRocks 凭借 Stella 内核登顶 TPC-H 10TB 世界性能榜单,相较第二名性能提升 111%,性价比提升 90%,数据加载效率提升 6200%。

与此同时,Fusion ------企业级 Spark 内核也完成 2.0 版本重大升级。 其向量化算子与表达式覆盖率达 100%,JSON 解析性能提升 78%,Paimon 读写性能翻倍,数据倾斜场景性能提升 10 倍。在 TPC-DS 10TB 测试中,性能领先开源 Spark 高达 500%。更进一步,EMR Serverless Spark 凭借 Fusion 2.0 登顶 TPC-DS 100TB 世界榜单,相较 Databricks 2021 年纪录,性能提升 100%,性价比提升 500%,充分验证了其在超大规模数据湖分析中的领先优势。

智能:AI 升级,高度自治

如果说"高效"解决了性能问题,那么"智能"则致力于降低使用门槛。**EMR AI 助手正式进入公测阶段,旨在通过自然语言交互简化运维与分析流程。**用户可直接提问"集群为什么变慢了?"或"今天凌晨三点的弹性扩容为什么出现了部分失败的情况",系统将自动分析日志、指标与执行计划,提供精准诊断与修复建议。该助手覆盖EMR on ECS 集群组件异常、资源瓶颈、集群性能等常见问题,支持 7×24 小时自助服务,大幅减少对专业运维人员的依赖。

EMR Serverless StarRocks 智能平台也同步升级,集成健康诊断、业务洞察、事件通知与 AI 中心四大模块。平台不仅提供集群维度的 T+1 全局健康评估,还能实时定位问题组件并给出优化建议;SQL 诊断功能可生成详细 Profiling 报告,辅助用户理解执行瓶颈;业务洞察则将查询延迟、缓存效率等技术指标与业务结果关联,帮助用户量化数据对实际业务的影响。

EMR AI Function:让 SQL 拥抱大模型

为打通数据分析与 AI 能力的最后一公里,EMR Serverless StarRocks 与 Spark 同步启动 AI Function 邀测。用户可在 SQL 中直接调用大模型函数,实现情感分析、敏感信息脱敏、文本摘要、语言翻译、工单分类等常见任务。

例如,SELECT ai_mask('John Doe lives in New York. His email is john.doe@example.com.', ['person', 'email']) 可自动返回脱敏结果。这些函数默认集成阿里云百炼通用模型,也支持用户接入自定义模型,灵活适配不同场景需求。

EMR Serverless Spark 还全面支持 GPU 调度,实现作业级 GPU 资源分配、AI Function 本地推理、Spark ML(如 XGBoost、LightGBM)与 Spark SQL 的 GPU 加速,并支持对接百炼、PAI EAS 或本地 GPU 模型服务,构建端到端的 AI 数据处理闭环。

相关推荐
极光代码工作室17 天前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
JLWcai2025100917 天前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
ACP广源盛1392462567317 天前
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择
大数据·人工智能·分布式·嵌入式硬件·spark
木心术117 天前
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势
大数据·人工智能·spark
ACP广源盛1392462567318 天前
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心
大数据·人工智能·分布式·嵌入式硬件·spark
KaMeidebaby18 天前
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据
大数据·人工智能·架构·spark·新浪微博
ACP广源盛1392462567319 天前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
想ai抽19 天前
Spark Executor 因节点内存超限被杀的分析与应对
大数据·性能优化·spark
simidagogogo19 天前
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战
算法·spark·推荐算法
ACP广源盛1392462567319 天前
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障
大数据·人工智能·分布式·嵌入式硬件·spark