EMR Serverless Stella 1.0 技术分享：StarRocks企业级版本内核重大突破

在今年云栖大会上，EMR Serverless Stella 1.0正式发布，这是一款面向企业级场景深度优化的高性能数据分析引擎。阿里云开源大数据平台OLAP引擎负责人周康系统性地分享了 Stella 在存算分离架构、Lakehouse 场景以及全文检索等三大核心场景下的深度优化经验，为业界提供了大规模 OLAP 系统工程化实践的宝贵参考。Stella引擎的发布将为企业级用户提供更加专业、高效的OLAP解决方案。

站在巨人肩膀上：与 StarRocks 开源社区的深度合作

阿里云与StarRocks开源社区的合作可以追溯到2021年，从开源第一天起就建立了深度合作关系。在过去四年中，双方在源码共创、产品发布和技术优化方面积累了丰富的经验。

合作历程回顾：

2021年：开启源码共创，重点推动数据湖分析相关框架和性能优化
2022年3月：推出EMR半托管StarRocks形态
2023年：响应市场需求，推出全托管产品形态
2024年：正式商业化存算分离版本

随着产品的成熟，阿里云EMR已积累数百家B端企业客户。"我们始终站在巨人的肩膀上，"阿里云开源大数据平台OLAP引擎负责人周康表示，"Stella 所有功能和优化都会逐步回馈给社区，同时确保API层面与开源版本完全兼容。"

Lakehouse 成为业界共识：Stella 应运而生

2024年，阿里云正式发布 OpenLake 方案，标志着 Lakehouse 架构在数据基础设施领域的全面落地： 2024云栖大会重磅发布OpenLake解決方案，StarRocks 为 OLAP场景核心组件

伴随这一趋势，Lakehouse（数据湖仓一体）已成为国内外头部公司的业界共识：

海外Lakehouse发展趋势 Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi

阿里云推出了 OpenLake 一体化湖仓解决方案，StarRocks 在其中担任核心 OLAP 引擎角色。然而，在大规模生产环境中，StarRocks 在存算分离架构和湖表查询方面仍有优化空间。Stella 项目正是为了应对这些挑战而生。通过在调度、查询优化、执行引擎和存储引擎四个层面的全面改进，Stella 1.0 针对几十 TB 甚至 PB 级数据场景，解决了事务机制、Compaction 效率、查询性能、元数据管理等一系列生产环境痛点。

Stella 1.0 三大核心场景突破

EMR Serverless Stella 1.0版本于今年5月正式发布，主要聚焦三大核心技术能力的重大突破：

一、存算分离：性能和稳定性大幅提升

Stella 1.0 在存算分离架构下实现了三大突破：

1. 冷查性能大幅提升

实现 IO 合并，减少对象存储访问次数
优化 Compaction 调度器，大幅减少小文件数量
针对轻量级 ETL 场景优化负载调度

2. 写入性能保障

开发 Batch Publish 能力，解决串行化导入瓶颈
推出 Collocated PK Index，避免缓存盘和索引盘互相影响
优化 FE 侧 Tablet 创建删除效率

3. 缓存利用率优化

引入 Index Cache 和 Meta Data Cache，提升元数据访问速度
实现自适应 IO Stream，智能选择本地缓存或远端访问
针对 ETL 场景优化空间利用

在TPC-H 10T基准测试中，存算分离版本的Stella相比上一版本性能提升超过120% ，充分展现了云原生架构的技术优势。

二、Paimon 湖表查询：Co-design 驱动性能飞跃

Stella 1.0在Paimon表分析方面，重点聚焦在三个方向的提升：

1. 数据读写效率提升

实现自适应 Batch Size 优化
支持Native Paimon Writer，性能大幅提升

2. 元数据访问优化

针对 Manifest 数量众多场景，实现分布式解析能力
适配异步 Splits 调度框架
优化 Manifest Cache 策略

3. 深度集成阿里云 DLF 2.x

与 Data Lake Formation 产品深度整合
借助 DLF 能力提升 Paimon 查询和写入的性能与稳定性
针对DV表实现Native读取优化

Stella在Lakehouse场景下查询Paimon下性能的提升非常明显：

虽然 Flink + Paimon 已成为成熟的实时入湖方案，但计算引擎与 Paimon 存储的查询优化结合仍有巨大提升空间。Stella 与 Paimon 将在多个方便持续进行Co-Design，更多优化成果将在后续版本中发布。

三、全文检索：打造高性能、高可用的文本分析能力

Stella 1.0 正式推出全文检索能力，支持高效、精准的文本查询。

架构重构：对 Inverted Index（倒排索引）整体解决方案进行架构优化
存算分离主键表支持：新增主键表全文检索能力，实现高效精准的查询能力
小文件合并 ：解决存算分离架构下的"性能杀手"问题（单个 Segment 产生十几个小文件）

文本过滤性能benchmark: Stella vs EMR StarRocks 3.3

目前，全文检索功能已在阿里集团内部和云上客户中投入使用，所有优化代码已通过 PR 提交至 StarRocks 开源社区。

技术创新路线图持续演进

面向未来，Stella引擎制定了清晰的技术发展路线图，在四个关键领域持续深耕：

迈向Stella 2.0时代：轻量 ETL Production Ready
全面强化轻量级 ETL 能力，打通从数据接入、转换到分析的端到端链路，使用户无需依赖外部调度系统即可高效完成日常数据加工任务，真正实现"开箱即用、生产就绪"。
Lake Optimizer：湖表性能全面对齐甚至超越内表
推出专为开放数据湖设计的 Lake Optimizer，显著提升 Apache Paimon 等湖表格式的查询性能，让湖表在复杂分析场景中媲美甚至超越传统内表体验。
智能化 Background Job Service：彻底释放用户运维负担
针对企业用户长期面临的内表运维复杂、资源争抢等问题，Stella 将推出智能化后台作业服务，自动处理 compaction、索引构建、统计信息收集等任务，实现高智能化的自治运维，大幅提升系统稳定性与资源效率。
全文检索与向量检索能力持续提升
在已有的高性能 OLAP 基础上，进一步融合全文检索与向量检索能力，支持非结构化与多模态数据的统一分析，为 AI 原生应用、智能搜索等新兴场景提供底层引擎支撑。

这四大方向不仅体现了 Stella 对 Lakehouse 架构的深度适配，更彰显了其从"高性能分析引擎"向"智能数据平台核心引擎"演进的战略决心。随着这些能力的逐步落地，Stella 将为企业用户提供更开放、更智能、更易用的下一代实时分析体验。

技术探索与社区协作深度融合

Stella引擎在技术架构探索方面持续深化与开源社区的合作：

Lakehouse架构能力的持续拓展体现了Stella引擎的前瞻性设计理念。在现有Lakehouse架构基础上，系统将支持更多检索功能，为企业的多元化分析需求提供全面支持。向量搜索技术是与Apache Paimon深度集成的创新探索，在AI和大数据时代，向量搜索能力将成为差异化的技术优势。

开源社区贡献亮点

JSON等半结构化数据处理能力持续增强，推动整个生态发展
大规模场景技术实践经验分享，为社区贡献宝贵技术智慧
与Apache Paimon团队深度技术合作，确保生态整合持续优化
所有优化方案回馈开源社区，推动开源生态系统发展进步

开源社区的深度贡献体现了Stella团队的技术责任感和开放合作精神。JSON等半结构化数据处理能力的持续增强将推动整个生态的发展，为企业在数字化转型过程中处理多样化数据提供更强支持。大规模场景下的技术实践经验分享不仅展示技术实力，更为社区贡献了宝贵的技术智慧。

"我们不仅要在云上提供增值服务，更要推动整个开源生态的发展，"周康强调，"通过深度参与开源社区，确保所有用户都能从技术进步中受益。"

技术意义与未来规划

EMR Serverless Stella 1.0的发布标志着阿里云在湖仓一体技术领域达到新的里程碑，为用户提供从数仓加速、湖仓查询到全文检索的全方位OLAP能力支持。该版本不仅解决了企业在实际生产环境中遇到的关键技术挑战，更通过持续的技术创新和社区贡献，推动了整个StarRocks生态系统的发展。

未来，Stella将继续围绕Lakehouse架构演进，在缓存调度、查询优化、存储引擎和写入能力等核心领域持续创新，为企业数字化转型提供更加强劲的技术引擎。