零成本迁移,原地加速,成本降低60%:火花思维基于云器Lakehouse升级实践

火花思维起步于2017年,作为中国专注少儿逻辑思维培养的细分头部品牌,其多元化的课程体系、实时互动的教学场景与全球化的服务网络,对平台的海量数据处理与智能化分析能力提出了极高要求。

同时,开源Spark逐渐老旧,离线计算模式和行式Java引擎不再先进,为应对开源Spark引擎性能瓶颈、计算成本高昂及运维投入产出不成正比等挑战,火花思维技术团队引入云器Lakehouse,并制定了分阶段升级策略:第一阶段通过"零迁移、换引擎"快速拿到降本增效成果;第二阶段逐步增量化改造,实现Kappa架构升级;第三阶段面向Data+AI展开应用探索。

目前第一阶段已完成,高消耗任务100%丝滑迁移至云器Lakehouse,不同任务性能有3-10倍不等的提升,因此在将时效性从T+1提升到H+1,计算成本仍然降低60%以上,同时迁移工作量趋近于零。

接下来,本文将详解本次火花思维Lakehouse升级背后的技术思路与落地实践。

现状与痛点:火花大数据平台面临的挑战

架构背景

经过多年的技术积累,我们构建了一套相对成熟的大数据处理体系:

上层:自研大数据平台Athena,承载着集群管理、任务开发、调度编排、运行监控和数据提取等核心功能。这是业务人员日常操作的统一入口,也是我们多年来沉淀的核心技术资产。

底层:最初基于公有云EMR(Elastic MapReduce)构建的Spark/Hive计算集群,后来我们将数据存储于腾讯云对象存储COS;Presto负责联邦查询加速。

从架构图可以清晰看到,平台通过调度模块对接底层的引擎,由Spark/Hive引擎执行计算任务,Presto负责查询加速,所有数据持久化在COS对象存储中。

这套架构在业务早期运行良好,但随着数据规模和任务复杂度的增长,问题开始逐渐暴露。

核心问题

问题一:大规模数据量下的计算和查询性能低

在大规模数据量下(百TB级别),开源Spark和Presto引擎的性能瓶颈日益凸显。相比Databricks等商业化引擎,社区版Spark在向量化执行、查询优化、内存管理等方面存在代际差距,处理同等规模数据所需的时间和资源消耗明显更高。

问题二:大任务计算成本高

火花思维的业务有多种场景的应用,包括离线加工(spark)、查询分析(Presto)、实时加工(Flink)等,即使已经优化了资源的弹性使用,但是大任务成本依然高昂,每个月面临几十万的成本支出。

问题三:AI能力的探索需要从头建设

AI的应用场景中,从非结构化数据的存储管理,到向量化存储及检索,到构建知识库,并基于此实现自然语言问答,或者实现AutoETL等能力,需要从头引入新的产品组件来实现;除了引入新产品组件的工作量之外,依然会导致结构化数据和非结构化数据的天然割裂,一些多模数据的融合场景很难落地。

升级选型逻辑:下一代数据引擎的评估与决策

评估背景

面对性能、成本、运维、AI应用等多重挑战,我们技术团队在2024年下半年启动了系统性的方案评估。评估范围包括其他云厂商的托管Spark服务,以及新一代Lakehouse引擎。

在正式评估之前,团队首先梳理了对下一代数据引擎及平台技术的核心需求。

需求清单:八项关键能力

经过内部讨论,明确了以下几个关键考虑的方向;其中,短期最重要的还是"在不大改现有平台的基础之上,实现引擎性能的大幅度提升"

|-------------|---------------------------------|-------------------------------------------------------------------------------------------------|
| 关键能力分类 | 关键项 | 说明 |
| 已有能力保持及优化 | 支持存算分离 | 数据依然保留在现有的腾讯云COS中,新引擎需要能够对接已有存储和元数据。 |
| 已有能力保持及优化 | Serverless弹性计费 | 业务每天不同时刻都有波动,资源需要能灵活弹缩。 |
| 已有能力保持及优化 | 与自研平台Athena集成 | 数据工厂是核心技术资产,新引擎需要提供标准化的SDK或JDBC接口,支持低侵入式对接,而非要求更换整套平台。 |
| 已有能力保持及优化 | Spark SQL高度兼容 | 现有数千个ETL任务基于Spark SQL开发,新引擎必须实现语法层面的高度兼容,将改造工作量控制在可接受范围内。 |
| 新一代湖仓平台能力建设 | 引擎性能必须有代际提升 | 不是10%、20%的边际改进,而是数倍乃至十倍的性能跨越。只有这样,才能从根本上解决大任务超时等性能问题。 |
| 新一代湖仓平台能力建设 | 具备新一代湖仓演进能力 | 当前目标是解决批处理以及查询性能问题 ,但长期来看,团队希望逐步引入增量计算范式,向准实时数据能力演进,新引擎需要具备这一技术路线图;最终建设成新一代的Kappa架构 |
| 新一代湖仓平台能力建设 | 免运维或极简运维 | 将工程师从集群管理、参数调优等事务中解放出来,专注于业务价值创造。 |
| AI能力建设 | 面向未来,支持Data+ AI 的应用 | 具备Data+AI底座的能力,包括但不限于:多模数据的存储、管理、计算,到向量化存储及检索,到构建知识库,支持MCP Server 接口,并基于这些能力实现自然语言问答,AutoETL等能力 |

方案选择:云器Lakehouse

为满足上述能力,火花思维技术团队在深入评估多种方案后(包括完全开源自建方案等),还是决定引入 云器Lakehouse 作为核心平台,来支撑新一代一体化湖仓平台及Data+AI大数据基础设施平台的建设。

为了能丝滑切入,火花思维技术团队首先选择了云器Lakehouse 外表加速能力,对已有系统入侵极小,保护已有资产的同时实现插件化的加速,快速拿到性能提升和降本的效果,为此我们也做了详细的POC验证,确实拿到效果之后才真正上生产,目前已经稳定运行近一年。

总结下来,云器Lakehouse外表加速方案有以下优势:

|-------------|------------------------------------------------------------------------------------------------------------|
| 需求维度 | 云器Lakehouse 外表加速方案 |
| 引擎性能 | 1. 自研向量化引擎,实测提升3-10倍; 2. 如果未来使用内表模式,性能还可以再提升3倍左右 |
| 存算分离 | 1. 原生存算分离架构 2. 支持外表模式直接读/写已有Hive表、Iceberg表,并具备更高的性能 4. 不需要动已有的数据,以及上下游业务 |
| 计费模式 | 1. 纯Serverless,按需弹性;而且实现秒级弹缩,弹缩性能更极致,收费可以精确到1分钟; 2. 用资源才收费,不用不收费 |
| SQL兼容性 | 1. 兼容Spark SQL 2. 兼容Presto SQL |
| 平台集成 | 1. 提供Python SDK/JDBC,集成Athena简单,1个人一周内就可以完成 |
| 湖仓能力 | 1. 天然湖仓一体架构,一个引擎同时支持离线加工,基于增量计算的实时加工,实时分析等多场景,真正的Kappa架构 2. 有很好的开放性,兼容Iceberg、Parquet、HMS等,可被外部引擎消费 |
| Data+AI基础能力 | 1. 多模数据的存储/管理(元数据和权限)/计算 2. 向量存储和向量检索、倒排索引等能力,支持构建知识库 3. 支持MCP Server,支持AI Function,和多种大模型集成,可快速构建AI Agent |
| 运维负担 | 全托管,零运维 |

实际生产任务基于云器Lakehouse外表性能测试对比结果如下:

  • 不同Query基本均有3-10倍的性能表现

  • 如果是云器内表,在该性能基础之上可以再快3倍左右

最终,团队选择了基于云器Lakehouse作为新一代引擎,并且分阶段推进的策略,先用云器Lakehouse外表加速能力快速切入,拿到提升性能和降本的效果,后续再逐步实现不同业务场景的建议,以及AI的应用

升级路径:选择Spark平替升级计算方案

团队制定了分阶段的实施计划:第一阶段聚焦不动数据更换引擎;并通过Top 100高消耗任务的迁移验证,跑通技术路径、量化实际收益;第二阶段再根据一期效果,逐步扩大覆盖范围。长期看可以考虑全托管取代。

这种"小步快跑、逐步验证"的方式,既能快速兑现收益,又将变更风险控制在可接受范围内。

第一阶段的核心诉求:三个"必须"

第一,不动数据。

多年积累的业务数据是企业核心资产,"数据不迁移:降低迁移风险。

第二,不换平台。

Athena数据工厂承载了大量的任务定义、调度逻辑和权限配置,更重要的是,业务人员已经形成了稳定的使用习惯。更换平台意味着重新培训、重新开发、重新验证,这不适合一开始就做大幅改变;而相对的第一步只替换引擎,不会对用户体验产生影响。

第三,降本增效。

必须在可量化的周期内,实现计算成本的大幅下降和任务性能的显著提升,否则架构改造就失去了商业意义。

第一阶段解决方案:云器"外表"模式下的计算引擎置换

经过多轮技术调研和POC验证,火花思维第一步选择了采用云器外表模式接入Serverless Lakehouse。

这套方案的核心思路是:替换Spark引擎,提升性能效果。

  • 存储层:保持原有腾讯云COS不变,数据零迁移

  • 调度层:Athena继续作为统一入口负责任务分发

  • 计算层:将原有的Spark/Hive引擎,替换为Serverless架构的新一代计算引擎

从升级后的架构图可以看到,平台通过Python SDK/JDBC接口,将原本发往spark的任务分流到新的Lakehouse引擎。新引擎以"外表模式"直接读写COS中的数据,与原有Spark/Hive形成互补。

这种架构的好处在于:

  • 对上层透明:业务人员继续使用Athena平台,操作习惯不变

  • 对数据透明:数据仍然存储在COS,没有迁移成本

  • 对存量兼容:原有的Spark/Hive任务可以继续运行,新引擎作为增量能力补充

  • 弹性计费:Serverless按量付费,彻底消除资源闲置

实际收益:基于生产环境的数据测算

2025年6月,Top 100任务在生产环境稳定运行两周后,我们完成了正式的生产切换。以下是基于实际运行数据的收益测算。

性能提升:3-10倍

实测结果显示:

|-------------|----------|--------------------------------|
| 指标 | 优化前 | 优化后 |
| Top任务平均执行时间 | 约60分钟 | 约6分钟 |
| 数据产出时效 | T+1 | 小时级 |
| 任务稳定性 | 频繁OOM/超时 | 稳定执行: 任务完成生产上线,高效执行下稳定应对 COS限流 |

大任务平均性能提升10倍,数据产出时效从"次日可用"提升至"小时级可用",业务决策响应速度大幅改善。

成本下降:60%以上

大任务成本优化来自两个维度:

第一,消除闲置成本。

Serverless架构的核心特征是"按需计费":任务运行时按实际消耗的计算资源(CPU时间、扫描数据量)付费,任务结束后资源立即释放,不产生任何闲置成本。

第二,执行效率提升。

同样的任务,执行时间缩短10倍,意味着消耗的计算资源也相应减少。即使单位算力价格不变,总成本也会显著下降

综合两个因素,一期迁移的大任务计算成本降低60%。

低成本接入

  • 兼容性保障 :TOP 100 大任务兼容性跑通 100%。

  • 低迁移成本 :无需迁移数据、任务及元数据,仅通过引擎切换即可加速(如在 Athena 平台切换执行引擎至 Lakehouse)。

  • 灵活集成 :支持 JDBC、Python SDK 等多方式对接 Athena 平台,实现任务下发、结果回写与状态跟踪等。

总结与展望:从Lambda架构走向 Kappa 架构

回顾这次架构升级,目标是引入最新一代湖仓架构相关技术,为火花思维未来的业务发展打好基础;实现路径是分阶段逐步升级,目前已经完成第一阶段的建设目标,包括以下内容:

  • 轻量化实现了最新一代湖仓平台的引入:完成了Athena平台对接,数据和元数据对接,初步完成Data+AI的湖仓平台建设

  • 降本增效:已经迁移的业务,性能提升3-10倍,计算成本降低60%以上

  • 数据产出时效性提升:从T+1 到小时级

  • 运维成本降低:复杂大任务能更好的利用云资源弹性,同时有更好的稳定性

  • 为后续业务的逐步迁移打下基础:包括但不限于

    • 更多离线任务接入
    • Presto查询任务接入
    • 基于增量计算的实时任务接入
    • Data+AI应用的创新

第一阶段目标落地的核心经验是"换引擎不换车"------准确识别瓶颈(底层计算引擎),精准施策(置换而非重构),最小化变更范围,最大化收益。这种"自研调度 + 托管算力"的组合模式,让我们以最小代价完成了第一步。

但这并非终点。当前我们已验证了增量计算引擎的可靠性和托管模式的可行性,下一步将考虑更彻底的架构演进:

  • 全托管的湖仓平台、更大范围采用增量计算范式,并最终向 Kappa 架构迈进

  • "多场景多组件"的方式逐步收敛到"多场景一体化平台"方向演进

  • 同时在Data+AI的底座下,探索AI应用的创新

相关推荐
珠海西格电力2 小时前
零碳园区能源互联的落地保障措施
大数据·运维·网络·人工智能·能源
rgb2gray2 小时前
从轨迹到网络:广州休闲步行空间格局刻画 | 论文全解析与方法论深度拆解
大数据·人工智能·机器学习·语言模型·可解释
国科安芯2 小时前
商业航天视角下角度编码传感器的应用与MCU的集成适配
大数据·网络·单片机·嵌入式硬件·架构·制造·安全性测试
逸Y 仙X2 小时前
文章十二:索引数据的写入和删除
java·大数据·spring boot·spring·elasticsearch·搜索引擎·全文检索
chaofan9802 小时前
拒绝单体模型依赖:从 GPT-5.4 与 Claude 生产力之争看分布式 AI 网关的必要性
人工智能·分布式·gpt
Elastic 中国社区官方博客2 小时前
Elasticsearch:shell 工具不是上下文工程的银弹
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
金融小师妹2 小时前
局势边际缓和下的AI定价重构:金价4500关口面临路径选择与约束机制
大数据·深度学习·能源
乐迪信息3 小时前
乐迪信息:港口航行安全:船舶逆行、航速AI实时检测
大数据·人工智能·物联网·安全·目标跟踪