StarRocks 助力数禾科技构建实时数仓:从数据孤岛到智能决策

一、客户背景与业务挑战

1.1 客户介绍

数禾科技是一家金融科技领域的知名企业,致力于通过大数据和人工智能技术为金融机构提供高效的智能零售金融解决方案,服务银行、信托、消费金融公司、保险、小贷公司等持牌金融机构,业务涵盖消费信贷、小微企业信贷、场景分期等多个领域,提供智能营销、智能客服、智能运营等服务。

1.2 业务挑战

随着业务规模的快速增长,其原有的离线数据处理架构已无法满足实时决策需求,数据冗余、资源利用率低等问题日益凸显。

在数字化转型加速的今天,数禾科技面临以下核心痛点:

  • 架构复杂:同时部署ClickHouse、Doris等多套OLAP引擎,导致数据冗余、维护成本高昂

  • 响应滞后:传统离线报表T+1模式难以支撑金融业务瞬息万变的决策需求

  • 资源浪费:烟囱式系统设计导致集群资源利用率不足40%,故障排查效率低下

"我们需要一个能统一技术栈、支持实时分析且具备高扩展性的解决方案。"------数禾科技数据团队负责人

通过引入StarRocks实时数仓解决方案,数禾科技成功实现了数据链路的标准化与智能化升级,为业务增长注入新动能。

二、技术选型决策

考虑到兼容性与性能的平衡,数禾选择阿里云EMR Serverless StarRocks作为实时数仓的解决方案。

  • 实时写入与查询双优:主键模型采用Delete+Insert策略,避免Merge-on-Read的查询延迟和Merge-on-Write的写入瓶颈,实测单表查询性能较Doris提升明显

  • 存算分离架构创新:采用对象存储+缓存磁盘的混合架构,存储成本降低50%,同时支持弹性扩展,轻松应对数禾科技每日海量数据的持续增长

  • 生态兼容性极强:无缝对接Hive、Kafka、MySQL等主流数据源,实现"数据不搬迁"的湖仓一体架构

三、技术方案落地

3.1 架构设计

标准化数据链路建设

数禾科技借助StarRocks构建三层数据架构:

  • ODS层:通过Flink CDC实时同步RDS Binlog,Kafka数据流直连,以及通过 Hive Catalog 直接访问外表数据。确保源头数据新鲜度

  • CDM层:标准化处理后的数据复用率提升60%,公共指标库支撑80%+业务分析需求

  • ADS层:按业务部门划分数据集市,物化视图加速关键指标查询,平均响应时间缩短至秒级

全生命周期管理

  • 智能调度系统:StarRocks 的物化视图功能也可用于数据 ETL 过程,通过设置周期性调度,自动触发或手动执行 ETL 任务。通过设置5-60分钟的微批处理+自定义调度策略,实现弹性更新频率,资源利用率提升至75%

  • 高可用保障:FE/CN节点故障自愈,监控系统实时追踪20+核心指标(CPU/内存/IO/压缩评分),告警响应速度<5分钟

  • 成本优化实践:缓存磁盘策略使80%数据存储于低成本对象存储,单集群年节省存储成本超百万元

3.2 业务场景落地

实时数据监控场景

  1. 采用 Flink 消费 Kafka 或者 Flink CDC 直接消费业务库的 Binlog,以确保数据的新鲜度。这样,StarRocks 上 ODS 层的数据时效性也会得到保障。基于微批调度设置较小的间隔,能够为业务提供准实时的报表数据。

  2. 另一部分实时埋点数据量巨大,采用湖仓一体的架构来减轻 StarRocks 的压力,并在一定程度上保证数据时效性。

StarRocks 主要作为计算引擎,数据实时落在湖上,为 BI/AI/Adhoc/报表等业务提供了统一的单一真实数据源。StarRocks 通过 External Catalog 实时访问湖上数据,加工后将其落入 StarRocks 内表中,从而提高查询效率。

离线数据分析场景

对于一些实时性要求不高的离线报表,基本上采用 T+1 的时效。离线报表通过数据仓库的链路加工,利用 StarRocks 的能力对相应的数据集进行查询加速。离线报表加速采用与实时埋点数据相同的数据链路,通过湖仓一体的方式访问数据,从而减少数据搬迁。

四、实战成效

通过StarRocks实时数仓建设,数禾科技实现: 实时决策:关键业务报表时效性从小时级提升至分钟级,风险预警响应速度大幅提升。

架构健壮:采用分布式架构,支持自动容错和故障转移,确保 FE/CN 节点的高可用性。

降本增效:合并3套旧有系统,降低资源成本,同时借助阿里云EMR Serverless StarRocks对节点、任务、元数据全方位的监控数据,降低运维成本。

五、未来展望

未来,数禾计划结合 Paimon 进一步完善实时湖仓一体架构,并利用 StarRocks 在数据湖中的卓越性能,进行联合分析查询, 统一查询服务。此外,数禾计划引入 StarRocks 的 Multi-warehouse 和动态扩缩容节点功能,以实现资源隔离和读写分离,从而增强集群的稳定性。

欢迎体验最新版本的StarRocks:help.aliyun.com/zh/emr/star...

相关推荐
Lx3526 小时前
Hadoop数据处理优化:减少Shuffle阶段的性能损耗
大数据·hadoop
武子康11 小时前
大数据-99 Spark Streaming 数据源全面总结:原理、应用 文件流、Socket、RDD队列流
大数据·后端·spark
阿里云大数据AI技术1 天前
大数据公有云市场第一,阿里云占比47%!
大数据
Lx3521 天前
Hadoop容错机制深度解析:保障作业稳定运行
大数据·hadoop
T06205141 天前
工具变量-5G试点城市DID数据(2014-2025年
大数据
向往鹰的翱翔1 天前
BKY莱德因:5大黑科技逆转时光
大数据·人工智能·科技·生活·健康医疗
鸿乃江边鸟2 天前
向量化和列式存储
大数据·sql·向量化
IT毕设梦工厂2 天前
大数据毕业设计选题推荐-基于大数据的客户购物订单数据分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·hadoop·数据分析·spark·毕业设计·源码·bigdata
java水泥工2 天前
基于Echarts+HTML5可视化数据大屏展示-白茶大数据溯源平台V2
大数据·echarts·html5