一体系数据平台的进化：基于阿里云 EMR Serverless Spark的持续演进

**作者：**亿缇希技术（上海）有限公司马博、王建春

一、背景介绍

一体系汽配供应链平台（以下简称一体系），专注提供高品质发动机、变速箱、底盘技术零部件，融汇优质实体资源和创新互联网科技，为上游品牌商提供高效的下沉渠道，为下游零售商带来可信赖的产品和服务，让采购更便捷可靠，实现行业数字化转型。

随着企业对实时数据分析、AI 能力和大规模数据处理的需求不断增长，平台数据量庞大且持续增长、数据呈现半结构化及非结构化等特点的现状，传统的本地大数据平台在存储、弹性、成本、运维复杂度、深度挖掘、AI支持等方面逐渐暴露出瓶颈。与此同时，云计算的成熟与普及催生了全新的"Serverless 数据计算架构"，为构建下一代云原生数据平台提供了可能。
阿里云 E-MapReduce（简称：EMR）推出的 EMR Serverless Spark 和 EMR Serverless StarRocks，正是这一趋势下的重要技术产品。这两个产品结合阿里云一站式数据开发治理平台 DataWorks，共同构建了一个高效、灵活、低成本的数据分析体系。

为了应对新的业务挑战，一体系选择与阿里云合作，利用其强大的EMR平台，构建了符合业务场景和分析师习惯的工程解决方案。

本文将从架构演进的角度出发，探讨如何通过 EMR Serverless Spark 和 DataWorks 实现从传统 Hadoop 平台向云原生架构的平滑迁移与持续优化。

二、为什么选择阿里云EMR Serverless Spark

EMR Serverless Spark 是一款兼容开源 Spark 的高性能 Lakehouse 产品。它为用户提供任务开发、调试、发布、调度和运维等全方位的产品化服务，显著简化了大数据计算的工作流程，无需用户管理底层集群即可直接提交作业，支持批处理和流式计算。使用户能更专注于数据分析和价值提炼。

丰富的功能支持：支持权限管理、资源配额与任务隔离。兼容 Apache Spark API，现有任务可无缝迁移。
灵活的计费方式：仅对实际使用的 CPU、内存和执行时间计费。
良好的引擎性能：内置 Spark Native Engine，相对开源版本性能提升3倍。
完善的服务保障：根据任务负载动态分配资源，提升性能与成本效益。无需关注集群部署、扩缩容、故障恢复等底层操作。

三、技术方案设计

一体系通过阿里云 EMR Serverless Spark，实现了数据与 AI 技术的有效融合，并结合EMR Serverless StarRocks 搭建了 Lakehouse 平台。该平台核心部分如下：

首先，上游数据通过DataWorks的数据集成，实时以 Apache Paimon格式写入数据湖，写入时开启自动Compaction，用于平衡写入和读取性能。同时湖表元数据同步至DLF，以保持数据的实时性。

其次，通过 Serverless Spark 构建了数仓经典分层架构，95%的数据源采用DataWorks数据集成的实时入湖（ODS），经过清洗转化为明细数据（DWD），然后根据主题将明细层数据轻度聚合（DWS），再根据特定应用或业务场景提供高质量的指标数据（ADS），为上层业务系统提供支持。

在BI应用方面，一体系通过Dataworks调度 StarRocks任务，通过使用异步物化视图，加速数据湖查询，为数据湖中的报表和应用实现更高的并发，以及更好的性能。同时将 StarRocks 本地表中的实时数据与数据湖中的历史数据关联起来以进行增量计算。为上层应用提供 Dashboard 和报表支持，提升了数据的可视化和决策能力。

在 ML/AI 应用方面，一体系通过Dataworks调度 Spark 任务，进行数据的计算和聚合，处理后的指标数据从数据湖推送到了AI知识库，推动了 Data + AI 技术在实际业务中的应用。

以下架构图展示了如何利用 Serverless Spark 结合开源湖格式 Paimon、ML/AI 的多种工具库，以及阿里云 DLF 统一湖仓管理平台，实现高效的数据处理和AI赋能，使用 Serverless StarRocks 实现极速数据分析，为业务应用带来显著的提升。

四、数据平台演进

第一阶段（评估），明确现状与目标，选型阶段我们做了很多的调研，综合各个方面考虑（湖仓一体、存算分离、弹性伸缩、开箱即用、运维监控、长期支持等），选择一个成熟且统一的平台：既能够支持数据处理、数据分析场景，也能够很好地支撑数据科学场景，于是选择了阿里云EMR。

第二阶段（适配），任务兼容性验证，基于原数据平台Apache Ambari+Azkaban的构建，梳理 Hadoop 任务、依赖关系、数据流向等，将作业适配到 EMR Serverless 环境，测试性能与稳定性，确保 Spark SQL、UDF、依赖库等均兼容 EMR Serverless Spark。

第三阶段（迁移），分批切换任务，在 DataWorks 中创建新任务和流程编排，使用 Spark 作为计算引擎，逐步替代原有脚本和jar包，将数据迁移到 OSS 或OSS-HDFS 中，实现存储与计算解耦。

第四阶段（优化），性能调优与成本控制，EMR Serverless Spark 提供了Fusion引擎，性能提升显著。StarRocks提供了可视化慢SQL，及SQL查询分析能力，方便运维管理。利用 Serverless 特性优化资源配置，提升性价比。

第五阶段（治理），统一平台管理，借助 DataWorks 实现任务统一调度、监控与治理，结合EMR Serverless Spark 和 EMR Serverless StarRocks的一站式的数据平台服务，极大地简化了数据处理的全生命周期工作流程。

五、业务场景介绍

随着企业加速数字化应用的广度和深度，平台运营数据成为驱动业务增长、改善用户体验、提升运营效率的核心资产。数据处理架构满足了日益增长的数据量、实时性要求及灵活分析能力的需求，不仅解决了企业在日常海量运营数据分析的性能瓶颈、成本压力与运维难题，更为企业提供了敏捷开发、智能分析、持续演进的能力支撑。

场景1：基于业务交易端到端数据的深度应用，动态、灵活制定运营策略，指导各业务端开展针对性的工作，达到公司中、短期目标。

EMR Serverless Spark：对来自多个系统的交易数据进行清洗、合并、维度建模。
DataWorks：统一编排每日/每小时任务，保障数据准时产出。
OLAP 引擎：使用 StarRocks 进行实时查询与可视化分析。
ML 模型集成：通过 Spark MLlib 接入模型，进行特定场景针对性的策略制定。

场景2：客户服务分析对于提升客户满意度、增强品牌忠诚度以及优化整体运营效率至关重要。通过全面的数据分析，快速识别客户服务中的薄弱环节，制定有效的改进措施。

EMR Serverless Spark：负责对业务全过程数据的清洗、聚合计算。
DataWorks：统一调度 Spark 任务，管理依赖关系，保障任务链稳定性。
StarRocks：用于物化视图加速湖仓数据，交互式查询与报表展示。
报表对接：通过统一接口将分析结果接入报表系统。

六、Serverless Spark 产品优势

云原生极速计算引擎

内置 Spark Native Engine，相对开源版本性能提升3倍；内置企业级 Celeborn （Remote Shuffle Service），支持 PB 级 Shuffle 数据，计算资源总成本最高下降 30%

弹性资源管理

资源调度具备秒级弹性，支持按需分配最小粒度为 1 核的资源，按任务或队列级别进行精细化资源计量，确保资源使用的最大化与灵活性。

DATA 和 AI

提供完全兼容 PySpark/Python 的开发与运行环境，支持 Python 生态的机器学习 Lib，以及 Spark MLlib，支持产品化管理 Python 三方依赖库。

生态兼容

具备强大的兼容性与集成能力。支持 DLF 和 Hive MetaStore 数据目录，兼容 Paimon、Iceberg、Hudi 和 Delta 等主流湖格式，可对接 Airflow 和 Dolphin Scheduler 等主流调度系统，支持 Kerberos/LDAP 认证和 Ranger 鉴权，还支持 DataWorks 和 DBT 提交任务，全方位满足用户需求。

七、迁移后的收益

技术层面
- 数据入湖：
  - 采用了 Apache Paimon 作为数据湖存储格式，并集成了 Apache Spark、Flink 作为计算引擎，构建了一个完整的数据湖仓系统。这一系统已经在实时数据监控和分析等场景中得到了成熟的应用，显著提升了我们的数据处理能力和业务效率。
- 研发效率:
  - 迁移到 EMR Serverless Spark + Dataworks架构后，使用 Spark SQL 会话功能快速开发验证+Dataworks 生产调度的模式，研发效率显著提升，保障了关键业务的数据产出支持。
- 运维保障：
  - EMR Serverless Spark 的多版本管理能力为用户提供了灵活的选择空间，支持快速升级至最新优化版本，自动化的扩缩容、故障恢复等功能减少了手动干预的需求，降低运维压力。
业务层面
- 数据响应时长：大量作业由小时级提高到分钟级，生产速度得到大幅提升。
- 弹性伸缩能力：根据任务的实际需求动态调整资源规模，确保在高峰期也能保持良好的性能表现，同时在低谷期节省开支。

八、总结及后续期待

我们基于阿里云 EMR Serverless Spark 技术栈快速构建了全新的大数据平台，相比开源版本3倍以上的性能优势以及计算/存储分离的架构，极大提升了我们数据团队的效能，为开展业务分析提供快速数据交付能力。从传统 Hadoop 到 Serverless Spark，不仅是技术架构的升级，更是企业数据能力的一次质变，构建了一个面向未来的一体化云原生数据平台，为AI应用的深度融合，奠定数字化基础。

"EMR Serverless Spark 助力我们实现高效、弹性、易维护的数据处理，迈向更智能、更敏捷的云原生数据平台。未来可期，继续携手前行！"

------ 一体系平台架构师