不止于极速查询!StarRocks 2025 年度回顾:深耕 Lakehouse,加速 AI 融合

2025 年,是 StarRocks 持续深耕与进化的一年。围绕 Lakehouse 与 AI 实时能力,多个关键能力在迭代与实践中渐次落地。项目的每一步前行,都得益于社区每一次真实的反馈与贡献。

站在岁末年初,我们希望通过这篇文章,与大家共同回顾 2025 的重要时刻,并分享关于 2026 的规划与期待。

技术亮点:性能突破的一年

关键里程碑:StarRocks 4.0 发布

10 月 17 日,StarRocks 4.0 版本发布,在性能易用性 上都有明显提升。在 TPC-DS 测试中,新版本的查询速度同比提升了约 60%,进一步稳固了 StarRocks 作为高性能分析引擎的地位。

4.0 版本显著增强了对Apache Iceberg 的支持,包括隐藏分区处理、更快的元数据解析、全新的 Compaction API,以及原生 Iceberg 表写入。同时,将 JSON 升级为一等数据类型:无需进行数据平展,开箱即用即可获得 3--15× 的查询加速。借助更智能的 Compaction、元数据缓存与文件捆绑,云端 API 调用次数最高可减少 90%。

此外,StarRocks 4.0 引入了以 Catalog 为中心的 Iceberg 治理机制,并新增了 Decimal256、多语句事务及 ASOF JOIN 等特性,以适配更广泛的业务场景。在运维易用性方面,通过引入节点黑名单不区分大小写的标识符 以及全局连接 ID 等特性,让集群管理与问题定位更直观、更可靠。

Apache Iceberg:从外部表格式到湖仓原生底座

2025 年,StarRocks 围绕 Apache Iceberg 的支持更趋系统化:不再分散在单点功能的局部优化,而是将 Iceberg 视为湖仓架构的核心组件,重点解决性能波动、查询变慢和运维复杂等实际痛点。目标既关注性能提升,也强调端到端的可预测性,以保障关键业务在生产环境中的稳定运行。

  • 优化器层:增强对湖上数据的理解;通过从真实查询执行中学习,降低对不完整元数据的依赖,使查询计划更贴近实际数据分布。

  • 数据访问层:改进缓存与 I/O 行为,降低大查询、混合负载与远程存储带来的性能波动。

  • 引擎层:进一步内化 Iceberg 特有复杂性,让 Iceberg 表在查询与写入上的体验更接近原生表。

  • 治理与安全:随着生产采用扩大,同步强化生命周期管理与安全能力,提升可追溯性、可维护性与企业就绪度

物化视图:面向实时 Lakehouse 负载的"零抖动"加速层

在生产系统中,难点往往不在于单次查询能有多快,而在于性能是否足够可预测。数据持续变化、流量波峰以及缓存不稳定,都可能带来查询延迟的波动。

近期版本更新中,StarRocks 强化了物化视图(MV),使其更适合作为 Lakehouse 负载的稳定加速层。多列分区 MV 现可与 Apache Iceberg、Hive 的表分区直接对齐,从而实现更高效的增量刷新更稳定的 MV 利用率。

对于 SLA 关键负载,更清晰的 MV rewrite 行为,以及 force_mv 等选项,使查询能够更稳定地使用预计算结果;同时,新写入数据也能以可控、可预测的方式纳入刷新与查询流程。由此,性能一致性与数据新鲜度不再依赖运行时状态,而可以按业务诉求明确设定与实现。

在运维层面,基于分区的保留策略完善了生命周期管理,使 MV 更易于长期保持紧凑、可管理,并控制整体成本。

综合来看,这些改进让 MV 从临时的优化手段,转变为支撑低抖动、可预测 Lakehouse 性能的可靠加速基础。

Real-Time Analytics

2025 年,实时分析是 StarRocks 的关键方向之一。无论是传统 OLAP 与湖仓分析,还是作为 AI Agent 的底层支撑,低延迟、实时的查询能力都变得前所未有地重要。

整体来看,StarRocks 在实时分析上的工作主要聚焦于三个核心领域:

数据写入

  • Merge Commit:将零散的小批量写入合并为高效的事务。

  • 通过 Load Spill 和文件捆绑技术,减少 Compaction 和小文件带来的开销。

  • 面向对象存储:降低实时写入成本,并提升扩展性。

查询性能

  • 算子与优化器深度增强:加速 Join、聚合,并提升 spill 处理效率。

  • 缓存与统计信息更智能:缩短规划(planning)时间,同时提升执行效率。

  • 对 JSON 及复杂实时数据类型与负载提供原生支持。

运维可靠性

  • 分区生命周期管理增强(TTL、merging):面向实时与 up-to-date 的分析需求。

  • 物化视图(MV)增强:支持更高效的增量刷新与查询加速。

  • plan stability 工具:降低真实业务负载下的延迟波动。

🌍 社区成长与互动

这一年,StarRocks 社区以前所未有的速度发展壮大:区域落地更密集,贡献者更活跃,全球关注度也在持续提升。

Slack 社区成员超过 5,000 人、GitHub Star 超过 11,000,这些数字背后,是越来越多开发者愿意走进项目、参与讨论、加入共建。StarRocks GitHub 主仓库贡献者已达 500+,新增 PR 仍保持稳定输出。

StarRocks Contributor Awards

"StarRocks 2025 年度奖项"

是迄今为止覆盖最广、国际参与度最高的一届贡献者表彰。奖项不仅致敬推动技术演进、分享一线实践的贡献者,也表彰在各地社区持续耕耘、带动更多人参与共建的伙伴。

📍 Events & Meetups

StarRocks Summit 2025

2025 年 9 月,StarRocks 举办了迄今规模最大的线上峰会------StarRocks Summit 2025。来自全球的 32 位嘉宾带来分享,集中呈现了 StarRocks 在各行业落地与性能演进上的最新进展。

Coinbase、Pinterest、Intuit、Demandbase 等企业也分享了其真实实践:利用 StarRocks 在 PB 级数据规模下实现亚秒级查询性能的同时,进一步降低了基础设施成本。

StarRocks Connect 2025

2025 年 9 月 13 日,作为全球峰会在中国本土的延伸,StarRocks Connect 2025 于线上线下同步开启。本次活动以"连接"为核心,吸引了数万名开发者参与,深度探讨数据分析技术的未来演进。

来自镜舟科技、携程、Shopee、Cisco、SJM Resorts 等企业的技术领袖,分享了 StarRocks 在复杂业务场景下的前沿实践。

Real-Time & Lakehouse Meetups

今年,StarRocks 与 Apache Iceberg 、Apache Paimon 社区紧密合作,共同探讨"开放、快速、可治理"的 Lakehouse 架构,并通过多场社区活动与各地实践者交流,分享一线经验与真实案例。

在全球范围内,StarRocks 也保持着稳定的社区参与与活动节奏。这背后离不开热心的社区成员------他们积极参与,并主动发起、承办本地活动,让项目在全球开发者群体中的影响力持续扩展。

StarRocks Connect 2025

2025 年 9 月,作为全球峰会在中国本土的延伸,StarRocks Connect 2025 于线上线下同步开启。本次活动以"连接"为核心,吸引了数万名开发者参与,深度探讨数据分析技术的未来演进。

来自镜舟科技、携程、Shopee、Cisco、SJM Resorts 等企业的技术领袖,分享了 StarRocks 在复杂业务场景下的前沿实践。

2026 年度展望

Real-Time Analytics

实时分析一直是 StarRocks 的核心优势,也是长期投入并在生产中反复验证的方向。面向下一阶段,重点将放在进一步扩大这一能力边界,优先推进以下工作:

  • Auto Tablet Splitting:简化运维操作,提升大规模场景下的易用性。

  • 持续性能优化:进一步提升实时分析负载的处理效率。

  • 增强系统可观测性:让用户更清晰地掌握集群健康、性能表现与运行状态。

Lakehouse

主要围绕两个核心目标:

  1. 性能足够快,让分析可以直接在数据湖上运行。

  2. 系统足够稳健,能够承担并逐步替代 Snowflake 等传统数据仓库。

为实现上述目标,2026 年的工作重点将聚焦在:

  • 持续投入性能优化:在快速查询执行的既有优势基础上,继续加强性能表现。

  • 从"查询加速"扩展至端到端提速,确保数据的插入、删除及更新同样高效。

  • 支持更全面的数据管理操作,简化日常运维流程。

  • 在未来一年内实现对 Apache Iceberg v3 表格式的全面支持。

  • 围绕 Paimon/Fluss 推进湖流一体能力。

AI & Intelligent Optimization

计划把 AI 驱动的性能优化能力直接嵌入分析引擎,包括构建向量索引与 AI 辅助分析能力。通过这些能力,

用户既能更高效地运行分析,也能在此基础上开展 AI 赋能的个性化、自动化与智能决策相关实践。

以上为 2026 年的大致发展方向,推进过程中也会结合实际情况不断优化调整。欢迎在 GitHub 提交 Feature Request,或加入 StarRocks 社区群,和更多用户、贡献者一起交流想法、共同完善。

Roadmap 2026:https://github.com/StarRocks/starrocks/issues/67632

相关推荐
智驱力人工智能1 小时前
景区节假日车流实时预警平台 从拥堵治理到体验升级的工程实践 车流量检测 城市路口车流量信号优化方案 学校周边车流量安全分析方案
人工智能·opencv·算法·安全·yolo·边缘计算
Sherlock Ma2 小时前
强化学习入门(2):DQN、Reinforce、AC、PPO
人工智能·深度学习·机器学习·自然语言处理·transformer·dnn·强化学习
冰西瓜6002 小时前
从项目入手机器学习(六)—— 深度学习尝试
人工智能·深度学习·机器学习
水境传感 张园园2 小时前
负氧离子监测站:守护清新空气,畅享健康生活
人工智能·负氧离子监测站
咩咩不吃草2 小时前
机器学习不平衡数据处理三招:k折交叉验证、下采样与过采样实战
人工智能·算法·机器学习·下采样·过采样·k折交叉验证
TSINGSEE2 小时前
国标GB28181视频质量诊断:EasyGBS服务插件EasyVQD快速识别花屏、蓝屏、画面冻结抖动
人工智能·音视频·实时音视频·视频编解码·视频质量诊断·花屏检测·画面抖动
多恩Stone2 小时前
【3DV 进阶-11】Trellis.2 数据处理与训练流程图
人工智能·pytorch·python·算法·3d·aigc·流程图
新加坡内哥谈技术2 小时前
把数据中心送上太空毫无意义
人工智能
极速learner2 小时前
Dan Koe大神的AI使用思路分析:视频解读
人工智能