EMR Serverless Stella 1.0 技术分享:StarRocks企业级版本内核重大突破

在今年云栖大会上,EMR Serverless Stella 1.0正式发布,这是一款面向企业级场景深度优化的高性能数据分析引擎。阿里云开源大数据平台OLAP引擎负责人周康系统性地分享了 Stella 在存算分离架构、Lakehouse 场景以及全文检索等三大核心场景下的深度优化经验,为业界提供了大规模 OLAP 系统工程化实践的宝贵参考。Stella引擎的发布将为企业级用户提供更加专业、高效的OLAP解决方案。

站在巨人肩膀上:与 StarRocks 开源社区的深度合作

阿里云与StarRocks开源社区的合作可以追溯到2021年,从开源第一天起就建立了深度合作关系。在过去四年中,双方在源码共创、产品发布和技术优化方面积累了丰富的经验。

合作历程回顾:

  • 2021年:开启源码共创,重点推动数据湖分析相关框架和性能优化
  • 2022年3月:推出EMR半托管StarRocks形态
  • 2023年:响应市场需求,推出全托管产品形态
  • 2024年:正式商业化存算分离版本

随着产品的成熟,阿里云EMR已积累数百家B端企业客户。"我们始终站在巨人的肩膀上,"阿里云开源大数据平台OLAP引擎负责人周康表示,"Stella 所有功能和优化都会逐步回馈给社区,同时确保API层面与开源版本完全兼容。"

Lakehouse 成为业界共识:Stella 应运而生

2024年,阿里云正式发布 OpenLake 方案,标志着 Lakehouse 架构在数据基础设施领域的全面落地: 2024云栖大会重磅发布OpenLake解決方案,StarRocks 为 OLAP场景核心组件

伴随这一趋势,Lakehouse(数据湖仓一体)已成为国内外头部公司的业界共识:

海外Lakehouse发展趋势 Snowflake/Databricks/BigQuery + Iceberg/Delta/Hudi

阿里云推出了 OpenLake 一体化湖仓解决方案,StarRocks 在其中担任核心 OLAP 引擎角色。然而,在大规模生产环境中,StarRocks 在存算分离架构和湖表查询方面仍有优化空间。Stella 项目正是为了应对这些挑战而生。通过在调度、查询优化、执行引擎和存储引擎四个层面的全面改进,Stella 1.0 针对几十 TB 甚至 PB 级数据场景,解决了事务机制、Compaction 效率、查询性能、元数据管理等一系列生产环境痛点。

Stella 1.0 三大核心场景突破

EMR Serverless Stella 1.0版本于今年5月正式发布,主要聚焦三大核心技术能力的重大突破:

一、存算分离:性能和稳定性大幅提升

Stella 1.0 在存算分离架构下实现了三大突破:

1. 冷查性能大幅提升

  • 实现 IO 合并,减少对象存储访问次数
  • 优化 Compaction 调度器,大幅减少小文件数量
  • 针对轻量级 ETL 场景优化负载调度

2. 写入性能保障

  • 开发 Batch Publish 能力,解决串行化导入瓶颈
  • 推出 Collocated PK Index,避免缓存盘和索引盘互相影响
  • 优化 FE 侧 Tablet 创建删除效率

3. 缓存利用率优化

  • 引入 Index Cache 和 Meta Data Cache,提升元数据访问速度
  • 实现自适应 IO Stream,智能选择本地缓存或远端访问
  • 针对 ETL 场景优化空间利用

在TPC-H 10T基准测试中,存算分离版本的Stella相比上一版本性能提升超过120% ,充分展现了云原生架构的技术优势。

二、Paimon 湖表查询:Co-design 驱动性能飞跃

Stella 1.0在Paimon表分析方面,重点聚焦在三个方向的提升:

1. 数据读写效率提升

  • 实现自适应 Batch Size 优化
  • 支持Native Paimon Writer,性能大幅提升

2. 元数据访问优化

  • 针对 Manifest 数量众多场景,实现分布式解析能力
  • 适配异步 Splits 调度框架
  • 优化 Manifest Cache 策略

3. 深度集成阿里云 DLF 2.x

  • 与 Data Lake Formation 产品深度整合
  • 借助 DLF 能力提升 Paimon 查询和写入的性能与稳定性
  • 针对DV表实现Native读取优化

Stella在Lakehouse场景下查询Paimon下性能的提升非常明显:

虽然 Flink + Paimon 已成为成熟的实时入湖方案,但计算引擎与 Paimon 存储的查询优化结合仍有巨大提升空间。Stella 与 Paimon 将在多个方便持续进行Co-Design,更多优化成果将在后续版本中发布。

三、全文检索:打造高性能、高可用的文本分析能力

Stella 1.0 正式推出全文检索能力,支持高效、精准的文本查询。

  • 架构重构:对 Inverted Index(倒排索引) 整体解决方案进行架构优化
  • 存算分离主键表支持:新增主键表全文检索能力,实现高效精准的查询能力
  • 小文件合并 :解决存算分离架构下的"性能杀手"问题(单个 Segment 产生十几个小文件)

文本过滤性能benchmark: Stella vs EMR StarRocks 3.3

目前,全文检索功能已在阿里集团内部和云上客户中投入使用,所有优化代码已通过 PR 提交至 StarRocks 开源社区。

技术创新路线图持续演进

面向未来,Stella引擎制定了清晰的技术发展路线图,在四个关键领域持续深耕:

  1. 迈向Stella 2.0时代:轻量 ETL Production Ready
    全面强化轻量级 ETL 能力,打通从数据接入、转换到分析的端到端链路,使用户无需依赖外部调度系统即可高效完成日常数据加工任务,真正实现"开箱即用、生产就绪"。
  2. Lake Optimizer:湖表性能全面对齐甚至超越内表
    推出专为开放数据湖设计的 Lake Optimizer,显著提升 Apache Paimon 等湖表格式的查询性能,让湖表在复杂分析场景中媲美甚至超越传统内表体验。
  3. 智能化 Background Job Service:彻底释放用户运维负担
    针对企业用户长期面临的内表运维复杂、资源争抢等问题,Stella 将推出智能化后台作业服务,自动处理 compaction、索引构建、统计信息收集等任务,实现高智能化的自治运维,大幅提升系统稳定性与资源效率。
  4. 全文检索与向量检索能力持续提升
    在已有的高性能 OLAP 基础上,进一步融合全文检索与向量检索能力,支持非结构化与多模态数据的统一分析,为 AI 原生应用、智能搜索等新兴场景提供底层引擎支撑。

这四大方向不仅体现了 Stella 对 Lakehouse 架构的深度适配,更彰显了其从"高性能分析引擎"向"智能数据平台核心引擎"演进的战略决心。随着这些能力的逐步落地,Stella 将为企业用户提供更开放、更智能、更易用的下一代实时分析体验。

技术探索与社区协作深度融合

Stella引擎在技术架构探索方面持续深化与开源社区的合作:

Lakehouse架构能力的持续拓展体现了Stella引擎的前瞻性设计理念。在现有Lakehouse架构基础上,系统将支持更多检索功能,为企业的多元化分析需求提供全面支持。向量搜索技术是与Apache Paimon深度集成的创新探索,在AI和大数据时代,向量搜索能力将成为差异化的技术优势。

开源社区贡献亮点

  • JSON等半结构化数据处理能力持续增强,推动整个生态发展
  • 大规模场景技术实践经验分享,为社区贡献宝贵技术智慧
  • 与Apache Paimon团队深度技术合作,确保生态整合持续优化
  • 所有优化方案回馈开源社区,推动开源生态系统发展进步

开源社区的深度贡献体现了Stella团队的技术责任感和开放合作精神。JSON等半结构化数据处理能力的持续增强将推动整个生态的发展,为企业在数字化转型过程中处理多样化数据提供更强支持。大规模场景下的技术实践经验分享不仅展示技术实力,更为社区贡献了宝贵的技术智慧。

"我们不仅要在云上提供增值服务,更要推动整个开源生态的发展,"周康强调,"通过深度参与开源社区,确保所有用户都能从技术进步中受益。"

技术意义与未来规划

EMR Serverless Stella 1.0的发布标志着阿里云在湖仓一体技术领域达到新的里程碑,为用户提供从数仓加速、湖仓查询到全文检索的全方位OLAP能力支持。该版本不仅解决了企业在实际生产环境中遇到的关键技术挑战,更通过持续的技术创新和社区贡献,推动了整个StarRocks生态系统的发展。

未来,Stella将继续围绕Lakehouse架构演进,在缓存调度、查询优化、存储引擎和写入能力等核心领域持续创新,为企业数字化转型提供更加强劲的技术引擎。

相关推荐
--fancy4 小时前
如何使用Tushare构建自己的本地量化投研数据库
数据库·sql·数据分析
qq_22589174668 小时前
基于Python+Django餐饮评论大数据分析与智能推荐系统 毕业论文
开发语言·后端·python·信息可视化·数据分析·django
蒋星熠16 小时前
实证分析:数据驱动决策的技术实践指南
大数据·python·数据挖掘·数据分析·需求分析
谅望者21 小时前
数据分析笔记14:Python文件操作
大数据·数据库·笔记·python·数据挖掘·数据分析
观远数据21 小时前
数据驱动零售新生态:观远BI打造终端经营“透视镜”
大数据·人工智能·信息可视化·数据分析·零售
源码之家1 天前
基于python租房大数据分析系统 房屋数据分析推荐 scrapy爬虫+可视化大屏 贝壳租房网 计算机毕业设计 推荐系统(源码+文档)✅
大数据·爬虫·python·scrapy·数据分析·推荐算法·租房
源码之家1 天前
机器学习:基于python租房推荐系统 预测算法 协同过滤推荐算法 房源信息 可视化 机器学习-线性回归预测模型 Flask框架(源码+文档)✅
大数据·python·算法·机器学习·数据分析·线性回归·推荐算法
阿里云大数据AI技术1 天前
基于 Hologres 构建智能驾驶图像高性能分析系统
数据分析
咚咚王者1 天前
人工智能之数据分析 numpy:第五章 索引与切片
人工智能·数据分析·numpy