精选案例|首创证券 NoETL 敏捷数据分析创新实践

【方案亮点】

基于 Aloudata AIR 逻辑数据平台、Aloudata CAN 自动化指标平台,轻松实现企业全域数据的集成整合、指标定义及业务自助分析:

  • 逻辑化集成整合,零数据搬运实现 10+ 个不同数据源的快速、准确融合;
  • "定义即生产,定义即服务,定义即管理",指标交付速度从周快进至分钟,100% 口径一致;
  • 自适应查询加速,1s 查询响应率 95%,存算成本节约 50% 以上 。

背景:典型的多源异构数据集成和分析的挑战

首创证券股份有限公司(以下简称"首创证券")是一家具有全牌照经营资质、业务结构均衡、特色鲜明的综合类证券公司。在加强合规管理和注重风险防范的基础上,首创证券注重高质量发展和业务创新,持续加大科技投入,通过数字化水平的不断提升支撑业务战略的落地,依托金融科技保障业务的高质量增长。

证券行业是一个高度竞争和高风险的行业,需要对市场动态、投资者行为、产品生命周期、运营交易、资金清算、信用风控和监管政策等各方面的信息进行及时、准确和全面的分析与决策,对数据平台和指标体系有着重度依赖。2020 年 10 月证监会发布的《证券期货业科技发展"十四五"规划》表明,推进行业数字化转型发展是其两大主题之一,并强调需加强科技治理体系、数据治理体系建设。数字化转型是金融科技创新的关键环节,而数据治理是数字化转型的基石。

为满足监管与内部合规要求,支撑业务工作决策,首创证券迫切希望打破各应用系统数据孤岛,梳理元数据、主数据,规范数据标准,建立数据模型,提供数据质量保障,实现金融数据使用的最大值。盘点发现,亟待解决的突出问题包含以下方面:

  • 数据孤岛现象严重:上万张数据表,分散在 10 多个不同业务系统、数据库和平台中;
  • 数据口径不一致:开发链路不一致,指标口径缺乏有效管理,导致同一业务指标从不同数据表或服务中取得的数据不一致;
  • 口径溯源及影响面评估难:传统数据分析解决方案难以打通整体的数据血缘,导致指标的口径溯源困难;在调整数据链路时,也很难看清对下游的影响面;
  • 数据使用与分析效率低下:投资经理、运营人员对不同产品差异化分析的需求越来越高,但由于其缺乏 IT 知识背景,很难通过数仓表自助完成数据提取,数据使用最后一公里痛点明显;
  • 灵活性和敏捷性不足:证券市场变化迅速,需要快速调整分析策略,现有数据体系的支撑能力无法满足需求。

探索:传统"数仓 + BI"架构方案难以适应新时代的业务需求

在此背景下,首创证券数据平台团队考察调研了多种数仓解决方案,但由于下述问题,传统"数仓 + BI"的思路难以满足其对高效数据管理和智能分析的需求:

在数据管理方面,传统数仓需要频繁地在不同数据库之间迁移数据,这不仅导致效率低下,也使得用户无法自助访问和分析数据。其次,传统方案需要 ETL 工程师面向底层物理表开发和维护数据,随着业务增长,这种方式的维护成本和变更代价会越来越高。同时,由于数据分散在不同的系统中,数据安全风险也难以统一管控。更严峻的是,随着时间推移,重复和低质量数据会越积越多,需要投入大量人力进行日常的数据质量治理,这进一步消耗了效率。除此之外,传统数仓还将数据处理分割为数据提取、转换、加载等多个隔离的环节。这些环节往往依赖不同的工具、代码和人员完成,不仅开发维护复杂,一旦需要调整环节,迁移成本也极高。这种分割也容易导致数据工程与业务需求脱节,造成数据供需失衡。

在数据分析方面,传统模式需要依赖专业的数据工程师面向不同场景开发大量宽表/汇总表交付指标,引发数据无序膨胀,这不但极大增加了开发和维护成本,也使得业务用户无法自助完成数据分析,分析效率低下、数据信任度下降。更致命的是,同一指标往往分散在不同的分析工具中,造成定义和计算口径不一致的情况,这直接影响了决策的正确性。

综上所述,传统数仓架构在满足高效数据管理和智能分析方面存在种种局限。首创证券迫切需要寻找到一个更高效、更统一、更智能的现代数据平台方案,才能适应数字化时代的新需求。

发现:Data Fabric 理念

Data Fabric 是一种全新的数据管理架构理念。其主要目标是通过其内置分析能力来动态改善数据的使用,打破企业内部的数据孤岛,最大化释放数据价值。其核心理念是通过优化跨源异构数据的发现与访问,将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者,实现更有效地消除数据孤岛、更低的成本和风险、更高效的业务协作、更安全的数据使用、更快速地适应业务变化以及更敏捷的数据洞察。 典型的 Data Fabric 技术架构支持以下类型:

①数据整合:任何数据,无论其类型、规模以及位置如何,都可以被用户整合及访问,因为 Data Fabric 允许利用数据虚拟化层来整合数据,而无需移动数据和创建大量副本。此外,Data Fabric 还可以通过采用 ETL、CDC 及流处理等技术来保证数据的完整性和时效性;

②智能数据目录:Data Fabric 统一了大量的数据资产信息、自动化的数据目录维护,以帮助数据消费者查找数据、理解数据、跟踪数据来源和管理数据等,为企业提供其所拥有的所有数据资产的详细清单;

③动态元数据管理:Data Fabric 通常采用人工智能技术,帮助自动监测、分析、收集和激活元数据;

④数据治理:数据治理确保所有数据消费者,在受控策略的管控下访问他们需要的高质量信息(访问策略、加密脱敏策略、数据质量策略等),这些策略由元数据的激活功能而自动执行。

Aloudata (大应科技) 是一家自动化数据管理软件提供商,国内 Data Fabric 架构理念引领者,以"让数据随时就绪"为使命,致力于消除数据管理技术瓶颈,提升 ETL 工程自动化水平,助力企业平滑升级至下一代大数据基础设施。在同 Aloudata 团队进行交流后,首创证券认为 Aloudata 所主张的"NoETL"理念和依托 Aloudata AIR 逻辑数据平台、Aloudata CAN 自动化指标平台所构建的敏捷数据分析解决方案是完美解决其业务痛点、达成高质量数据平台建设和数据管理目标的理想方案。

Aloudata AIR 逻辑数据平台摒弃传统数仓数据架构(贴源层->明细层->聚合层),基于 NoETL 理念进行跨数据源查询构建虚拟明细层,并根据下游使用数据情况智能化构建数据聚合层、自动化进行数据物化以提升数据应用性能,简化数据开发链条的长度,节约数据平台基础设施成本,降低数据平台运维成本,构建敏捷数仓新形态。

Aloudata CAN 自动化指标平台基于业界领先的语义化建模及虚拟化引擎能力,支撑企业实现敏捷且一致的数据分析。基于强大的语义模型及指标要素化组合定义能力,无需依赖 ETL 工程师通过开发宽表与汇总表的形式交付指标,实现指标"管、研、用一体化",由系统自动完成指标预计算和加速服务,在同一指标口径的同时,显著提升业务用数效率。

变革:真正敏捷的数据集成与数据分析

经过沟通,Aloudata 为首创证券制定了一套完整的敏捷数据分析方案:

  1. 将外部采集数据、业务数据库数据(MySQL、Oracle、SQL Server等)以及对象存储数据统一通过 PDS(物理数据集,即业务库源表的映射)方式映射到逻辑数仓中,无需做一对一的数据复制,无需构建传统数仓的 ODS 层;
  2. 基于 PDS/VDS 定义新的 VDS(虚拟数据集,即定义了数据视图的取数逻辑),其中 DWD 层的视图进行物化并保存历史数据(用于数据的历史追溯和分析),之上的 VDS 定义作为数据应用层(按需物化),过程中无需关心数据存储和计算调度等细节,也无需物理拷贝数据,可多层嵌套,直到定义出目标场景可用的虚拟数据集;
  3. 基于虚拟数据集进行统一语义模型和指标定义,一方面实现了指标口径全局一致,另一方面通过自动化的指标生产规避了大量的人工 ETL 工作,并通过 API/JDBC 标准化接口对接外部的报表、分析工具及各类应用,实现数据和外部系统的共享;
  4. 根据用户访问需求,配置投影加速策略,由系统根据用户查询历史,自动编排物理链路,智能构建加速策略,实现外部业务数据查询的快速响应。

基于 Aloudata AIR 逻辑数据平台和 Aloudata CAN 自动化指标平台的 NoETL 敏捷分析解决方案为首创证券的数据运营工作带来了强有力的推动:

  • 10 倍以上数据化运营效率,重新定义了数据工作方式。无需等待数据同步和漫长 ETL 排期,人人皆可自助发现可信数据,随时进行全域数据探索和数据准备,实现企业数据化运营的极致敏捷;
  • 最高 100 倍的数据湖分析性能。相比 Presto、Impala 等开源方案,Aloudata AIR 提供 2 倍以上的数据湖查询性能,结合智能加速技术,最高可实现 100 倍性能提升,带来交互式的数据分析体验;
  • 50% 以上的存储成本节约。该方案基于对象存储技术构建数据湖,按需物化,相比开源 HDFS 方案成本节约近 2/3,同时通过对无用数据存储的自动回收以及对相似数据存储的自动合并,大幅降低存储成本;
  • 70% 以上数据管理成本节约。该方案实现了元数据驱动的智能化、主动式、持续式数据管理,让数据管理走向"自动驾驶",大量节省在数据治理和风险应对上的管理投入。

"Aloudata 开创性地提出了 'NoETL' 思路,以 NoETL 为核心理念构建的敏捷数据分析解决方案,一举解决了企业数据集成、数据加工、指标定义和指标分析全链路的顽疾,相比传统数仓方案在实施周期和使用成本方面下降了一个数量级。借助该项目,首创证券成功落地国际领先的 Data Fabric 实践,构建了数据随时就绪的能力,为企业决策和运营的数智化转型升级奠定了坚实的基础。"

------首创证券信息技术部总经理

总结:

依托 Aloudata AIR 逻辑数据平台、Aloudata CAN 自动化指标平台构建的 NoETL 敏捷数据分析方案具有以下几个技术优势,能够完善解决现代企业面临的数据治理通病和难题:

  1. 虚拟化:第一、通过逻辑视图技术将散落在各处的业务数据进行统一管理和定义,无需到处拷贝原始数据,确保数据的一致性和准确性;第二、基于逻辑视图定义数据查询和加工逻辑,物化时自动根据视图生成 PRP 加速;
  2. 智能化:基于用户查询行为和业务元数据驱动的智能加速能力,使得数据查询分析相比传统 Presto、Impala 等查询引擎有近百倍的提升。通过访问分析非热点数据和视图,将不再使用的物化数据自动回收,以节省物理存储和技术资源;
  3. 跨源连接能力:既可支持 MySQL、Oracle、SQL Server、PG 等传统关系型数据库,也可以支持 ES、HBase 等 NoSQL 数据库,同时也可以支持文件和对象存储(Iceberg、Hudi、HDFS 等),还包括常见的 OLAP 引擎如 ClickHouse、高斯等;
  4. 可靠性:通过分布式的查询引擎设计,引擎支持多节点扩展,以满足业务更高并发的查询需求、同时也支持 Cluster 等多集群隔离;
  5. 性能:通过自动的物化加速,可以提供比 Presto、Impala 等查询引擎更高的查询效率。

Aloudata AIR 逻辑数据平台和 Aloudata CAN 自动化指标平台源于 Aloudata 率先提出的 NoETL 理念,创新的NoETL 驱动的现代数据工程架构弱化了企业对 ETL 工程师的依赖,能够让 ETL 工程师更专注于企业通用数据模型,尤其是企业核心数据资产的模型设计上,而不是陷于琐碎枯燥的报表开发和数据管道的运行监控、变更响应、性能调优、链路变更等运维工作上,真正实现:

  • No Pipelines:去管道,无需关心数据位置;
  • No Tasks:免运维,无需操心任务运维;
  • No Cubes:自优化,无需担心查询性能。

目前,Aloudata 的产品和解决方案已在多家行业头部企业落地,帮助企业获得 10 倍数据化运营效率提升。其中,招商银行基于 Aloudata AIR 和 Aloudata CAN 实现的"敏捷数据服务体系建设实践",获评中国信通院 2023 大数据"星河"案例行业数据应用标杆案例。

作为面向未来的自动化数据管理专家,Aloudata 期待能够与更多优秀企业共同成长,一起共绘数字时代企业数智化运营的新未来。点击访问官网,了解更多信息。

相关推荐
Yz98767 分钟前
hive的存储格式
大数据·数据库·数据仓库·hive·hadoop·数据库开发
武子康11 分钟前
大数据-230 离线数仓 - ODS层的构建 Hive处理 UDF 与 SerDe 处理 与 当前总结
java·大数据·数据仓库·hive·hadoop·sql·hdfs
武子康12 分钟前
大数据-231 离线数仓 - DWS 层、ADS 层的创建 Hive 执行脚本
java·大数据·数据仓库·hive·hadoop·mysql
运维&陈同学24 分钟前
【zookeeper01】消息队列与微服务之zookeeper工作原理
运维·分布式·微服务·zookeeper·云原生·架构·消息队列
是阿建吖!25 分钟前
【Linux】进程状态
linux·运维
锵锵锵锵~蒋29 分钟前
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
大数据·数据仓库·flink·实时数据开发
明明跟你说过1 小时前
Linux中的【tcpdump】:深入介绍与实战使用
linux·运维·测试工具·tcpdump
Mr_Xuhhh2 小时前
重生之我在学环境变量
linux·运维·服务器·前端·chrome·算法
武子康9 小时前
Java-06 深入浅出 MyBatis - 一对一模型 SqlMapConfig 与 Mapper 详细讲解测试
java·开发语言·数据仓库·sql·mybatis·springboot·springcloud
朝九晚五ฺ9 小时前
【Linux探索学习】第十四弹——进程优先级:深入理解操作系统中的进程优先级
linux·运维·学习