分布式存储 vs. 全闪集中式存储:金融数据仓库场景下的性能对比

作者:深耕行业的 SmartX 金融团队 张德敏

近年来随着金融行业的高速发展,经营决策者及监管机构对信息时效性的要求越来越高,科技部门面临诸多挑战。例如,不少金融机构使用数仓业务系统,为公司高层提供日常经营报表,同时支持监管报送等应用。该业务系统通常是 I/O 密集型应用,对 IT 基础架构的性能有极高的要求。

《Oracle 数据仓库在超融合架构下的跑批性能验证》文章中,我们分享了金融机构利用 SmartX 超融合优化 Oracle 数据仓库跑批效率的实践经验。超融合部署架构如下:

​编辑

本期,**我们将进一步验证 SmartX 分布式存储 SMTX ZBS 对数仓业务系统的支持能力,**通过金融客户的实际测试,对比 SmartX 分布式存储与全闪集中式存储执行数仓跑批任务的效率。部署架构方式请参考下文。

测试背景

某金融机构使用传统架构支撑数仓业务系统,其中存储使用 EMC PowerStore 全闪存储,虽然现阶段可满足经营决策者及监管机构对信息时效性的要求,但科技部门认为该架构仍然面临一些挑战:

  • 全闪中高端集中式存储成本居高不下。
  • 集中式存储弹性扩展能力有限,无法做到容量及性能同步线性增长。
  • 新旧集中式存储替换带来庞大的数据迁移工作和开销,且无法保证业务零中断

得益于分布式的架构和弹性扩展能力,分布式存储能很好地解决以上问题。但让科技部门顾虑的是:分布式存储性能能否对标全闪中高端集中式存储?能否有效支撑数仓业务系统对报表输出时效性的要求?为此,该金融客户使用 SmartX 分布式存储在测试环境部署数仓业务系统,进行了相关课题的验证。

测试架构

​编辑

测试架构如图所示:

  • 计算端采用裸金属(Intel x86 服务器)部署 Oracle 数据库,测试环境使用一台 2 路服务器 ,当前生产环境使用一台 4 路服务器。
  • 网络端测试环境使用以太网交换机和 NVMe over RDMA 协议,当前生产环境使用光纤交换机和 FC 协议。
  • 存储端测试环境使用 SMTX ZBS 分布式存储和 3 台通用 Intel x86 服务器(混闪),当前生产环境使用 1 套 PowerStore 1000T 全闪存储。

软硬配置

​编辑

测试过程与结果

  1. 将生产数据导入到测试环境,导入数据量为 3.9TB。
  2. 数仓业务系统跑批的内容是 Oracle 执行一系列存储过程集,通过 linux 脚本自动化运行。
  3. 从所有数据里分别提取和处理 4、5、6 三个月的数据,记录每个月从执行开始到结束的时间,时间越短越好。

结果显示,相比生产环境,SmartX 分布式存储执行全部存储过程集,3 个月平均跑批时间缩短 45% ;其中,某耗时最长存储过程,3 个月平均跑批时间缩短 55% ,其他存储过程集 3 个月平均跑批时间缩短 31%

​编辑

数仓业务跑批期间统计了 SMTX ZBS 在该业务下的负载峰值,与 SMTX ZBS 基准性能做了进一步对比。从数据可以看出,SMTX ZBS 除了支撑该数仓工作负载外,仍有很大的余力。

​编辑

注:

基准数据指 SMTX ZBS 在该硬件配置下的最佳性能。

本次测试数据指数仓业务跑批期间 SMTX ZBS 的负载峰值。

绿色数据表示受限于网卡带宽,SMTX ZBS 存储实际的能力没有完整发挥出来。

测试结论

本次测试由客户全程自己操作完成,从测试结果看,**SMTX ZBS 分布式存储已经具备承载客户现有的数仓应用的能力。**这意味着,客户可以在不改变上层数仓应用的情况下,通过优化基础架构设施进一步提升跑批的效率,缩短跑批时间,从而以更少的成本带来更大的应用价值的提升。

更多应用场景持续探索中

科技产品价值终究要提升业务支撑价值。目前,SmartX 已联合多家来自银行、保险、证券、基金、期货、资管等金融细分行业的头部企业,针对超融合在 TA 注册登记、估值、BI 报表、O32、柜台交易系统等多种金融核心业务系统下的表现,开展全方位评测与验证。欲了解更多金融应用场景探索实践,请阅读往期文章:

您还可扫描下方二维码,获取**《金融核心生产业务场景探索文章合集》**,全面了解超融合如何支持金融核心业务系统、数据库、IT 基础架构云化转型与信创转型。

近期,我们将为您带来更多金融行业场景探索和验证文章,敬请期待!

相关推荐
zquwei4 小时前
SpringCloudGateway+Nacos注册与转发Netty+WebSocket
java·网络·分布式·后端·websocket·网络协议·spring
道一云黑板报8 小时前
Flink集群批作业实践:七析BI批作业执行
大数据·分布式·数据分析·flink·kubernetes
飞来又飞去10 小时前
kafka sasl和acl之间的关系
分布式·kafka
武子康10 小时前
大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构
java·大数据·数据仓库·hive·hadoop·后端
MZWeiei11 小时前
Zookeeper的监听机制
分布式·zookeeper
莹雨潇潇11 小时前
Hadoop完全分布式环境部署
大数据·hadoop·分布式
浩哲Zhe12 小时前
RabbitMQ
java·分布式·rabbitmq
明达技术12 小时前
分布式 IO 模块:赋能造纸业,革新高速纸机主传动
分布式
Allen Bright13 小时前
RabbitMQ中的Topic模式
分布式·rabbitmq
李洋-蛟龙腾飞公司14 小时前
HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据
分布式·华为·harmonyos