StarRocks 助力数禾科技构建实时数仓:从数据孤岛到智能决策

一、客户背景与业务挑战

1.1 客户介绍

数禾科技是一家金融科技领域的知名企业,致力于通过大数据和人工智能技术为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供智能营销、智能客服、智能运营等服务。

1.2 业务挑战

随着业务规模的快速增长,其原有的离线数据处理架构已无法满足实时决策需求,数据冗余、资源利用率低等问题日益凸显。

在数字化转型加速的今天,数禾科技面临以下核心痛点:

  • 架构复杂:同时部署ClickHouse、Doris等多套OLAP引擎,导致数据冗余、维护成本高昂

  • 响应滞后:传统离线报表T+1模式难以支撑金融业务瞬息万变的决策需求

  • 资源浪费:烟囱式系统设计导致集群资源利用率不足40%,故障排查效率低下

"我们需要一个能统一技术栈、支持实时分析且具备高扩展性的解决方案。"------数禾科技数据团队负责人

通过引入StarRocks实时数仓解决方案,数禾科技成功实现了数据链路的标准化与智能化升级,为业务增长注入新动能。

二、技术选型决策

考虑到兼容性与性能的平衡,数禾选择阿里云EMR Serverless StarRocks作为实时数仓的解决方案。

  • 实时写入与查询双优:主键模型采用Delete+Insert策略,避免Merge-on-Read的查询延迟和Merge-on-Write的写入瓶颈,实测单表查询性能较Doris提升明显

  • 存算分离架构创新:采用对象存储+缓存磁盘的混合架构,存储成本降低50%,同时支持弹性扩展,轻松应对数禾科技每日海量数据的持续增长

  • 生态兼容性极强:无缝对接Hive、Kafka、MySQL等主流数据源,实现"数据不搬迁"的湖仓一体架构

三、技术方案落地

3.1 架构设计

标准化数据链路建设

数禾科技借助StarRocks构建三层数据架构:

  • ODS层:通过Flink CDC实时同步RDS Binlog,Kafka数据流直连,以及通过 Hive Catalog 直接访问外表数据。确保源头数据新鲜度

  • CDM层:标准化处理后的数据复用率提升60%,公共指标库支撑80%+业务分析需求

  • ADS层:按业务部门划分数据集市,物化视图加速关键指标查询,平均响应时间缩短至秒级

全生命周期管理

  • 智能调度系统:StarRocks 的物化视图功能也可用于数据 ETL 过程,通过设置周期性调度,自动触发或手动执行 ETL 任务。通过设置5-60分钟的微批处理+自定义调度策略,实现弹性更新频率,资源利用率提升至75%

  • 高可用保障:FE/CN节点故障自愈,监控系统实时追踪20+核心指标(CPU/内存/IO/压缩评分),告警响应速度<5分钟

  • 成本优化实践:缓存磁盘策略使80%数据存储于低成本对象存储,单集群年节省存储成本超百万元

3.2 业务场景落地

实时数据监控场景

  1. 采用 Flink 消费 Kafka 或者 Flink CDC 直接消费业务库的 Binlog,以确保数据的新鲜度。这样,StarRocks 上 ODS 层的数据时效性也会得到保障。基于微批调度设置较小的间隔,能够为业务提供准实时的报表数据。

  2. 另一部分实时埋点数据量巨大,采用湖仓一体的架构来减轻 StarRocks 的压力,并在一定程度上保证数据时效性。

StarRocks 主要作为计算引擎,数据实时落在湖上,为 BI/AI/Adhoc/报表等业务提供了统一的单一真实数据源。StarRocks 通过 External Catalog 实时访问湖上数据,加工后将其落入 StarRocks 内表中,从而提高查询效率。

离线数据分析场景

对于一些实时性要求不高的离线报表,基本上采用 T+1 的时效。离线报表通过数据仓库的链路加工,利用 StarRocks 的能力对相应的数据集进行查询加速。离线报表加速采用与实时埋点数据相同的数据链路,通过湖仓一体的方式访问数据,从而减少数据搬迁。

四、实战成效

通过StarRocks实时数仓建设,数禾科技实现: 实时决策:关键业务报表时效性从小时级提升至分钟级,风险预警响应速度大幅提升。

架构健壮:采用分布式架构,支持自动容错和故障转移,确保 FE/CN 节点的高可用性。

降本增效:合并3套旧有系统,降低资源成本,同时借助阿里云EMR Serverless StarRocks对节点、任务、元数据全方位的监控数据,降低运维成本。

五、未来展望

未来,数禾计划结合 Paimon 进一步完善实时湖仓一体架构,并利用 StarRocks 在数据湖中的卓越性能,进行联合分析查询, 统一查询服务。此外,数禾计划引入 StarRocks 的 Multi-warehouse 和动态扩缩容节点功能,以实现资源隔离和读写分离,从而增强集群的稳定性。

欢迎体验最新版本的StarRocks:help.aliyun.com/zh/emr/star...

相关推荐
老蒋新思维9 小时前
创客匠人视角:智能体重构创始人 IP,知识变现从 “内容售卖” 到 “能力复制” 的革命
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
笨蛋少年派10 小时前
Flume数据采集工具简介
大数据
梦里不知身是客1110 小时前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
小C80611 小时前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据
西格电力科技13 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
beijingliushao14 小时前
105-Spark之Standalone HA环境搭建过程
大数据·spark
五阿哥永琪14 小时前
Git 开发常用命令速查手册
大数据·git·elasticsearch
数字会议深科技15 小时前
深科技 | 高端会议室效率升级指南:无纸化会议系统的演进与价值
大数据·人工智能·会议系统·无纸化·会议系统品牌·综合型系统集成商·会议室
容智信息15 小时前
容智Report Agent智能体驱动财务自动化,从核算迈向价值创造
大数据·运维·人工智能·自然语言处理·自动化·政务