某头部股份制银行基于 Data Fabric 的敏捷数据准备创新实践

【背景】

随着数字化转型的持续深入，某头部股份制银行把"依托数据洞察提升管理和营销的精准度、实现经营与服务的精细化与个性化"作为参与下一阶段数字化业务竞争的核动力。经过多年的探索，该头部股份制银行数字化技术与业务场景的融合逐渐进入了深水区。

一、源起：敏捷 BI 在各业务条线广泛推广

该行内部已建成一套以数据可视化、自助分析、数据接入等核心组件为一体的数据分析平台，通过赋能行内数据产品建设，服务各业务条线的日常用数。

其中，面向数据分析师的自助用数服务是核心能力，包含了自助制作业务报告、自助探索分析、数据轻加工、增强分析、办公用图表等主要场景。随着该行支撑的数据产品自助化场景逐步拓展，越来越多的用数环节由业务用户自己完成。目前，该行数据平台已经支撑行内批发、零售、财会、运营、风险等条线的数据产品建设，月服务用户超数万人。

二、挑战：海量数据规模下的报表查询性能问题

随着数字化转型的持续深入，该行的数智化建设进入数据规模爆炸式增长的"深水区"。据统计，其总行湖仓的整体规模已经超过数十 PB，而数据服务场景从企业高管的"固定分析"需求向"数智化运营"转变，业务运营过程中大量的"微决策"场景高度依赖及时、精准的数据分析。以零售业务为例，营销圈人、人群洞察、活动效果评估等复杂多变的敏捷运营需求大量涌现。

海量数据分析性能的问题成为一大挑战，特别是在报告查询和自助分析响应效率方面。其次，数据需求的交付效率也存在问题。在总分机构的模式下，分行作为业务的最前线，常常出现数据生产和消费的时间差异。业务需求的灵活性给数据模型带来了空间和时间复杂度的挑战。IT 交付的数据模型，无论是宽表、Cube 还是明细数据，在海量数据规模下，都难以满足高效查询的需求。即使在某个时间点能够调整到最佳状态，未来的业务需求仍难以快速响应。

基于上述背景，该行联合 Aloudata 进行创新，通过 Aloudata AIR 逻辑数据平台构建了基于 Data Fabric 理念的敏捷数据准备解决方案，大幅提升了数据准备效率和高并发下的请求响应效率，实现了全行数据的零复制实时汇聚与访问、VIP 业务报告百分百性能保障和 90% 以上报告请求秒级打开率。

【方案介绍】

海量业务数据分散在多个引擎是各项业务快速创新和增长的必然结果。国内头部金融企业和大型互联网公司传统上都是采用数据仓库方案，通过物理方式实现数据的汇总和加工，进而为分析场景提供数据准备。面向不同用数场景的多次物理搬运与 ETL 工程不仅成本高昂，还会导致重复导数、数据安全、数据时效性差、数据灵活性和使用效率较低等问题。

Data Fabric 是一种国际上较为先进的数据管理架构思想，包含了数据虚拟化、主动元数据在内的一系列技术，其核心理念是通过优化跨源异构数据的发现与访问，将可信数据从所有数据源中以灵活且业务可理解的方式交付给所有相关数据消费者，让数据消费者自助服务和高效协作，实现极致敏捷的数据交付，同时通过主动、智能、持续的数据治理，让数据架构持续健康。

基于 Aloudata AIR 国内首个 Data Fabric 逻辑数据平台的能力，方案首先通过虚拟化手段将 GaussDB、ClickHouse、MySQL、Postgres 等引擎中的海量的数据进行逻辑整合，构建出一个统一的逻辑数据资产层，进而让该行可以为用户提供更加灵活的自助式数据准备和自助式数据服务的取数、用数方式，进一步提高了数据需求的响应效率，覆盖用户不同业务场景的用数需求。新方案的整体计算和存储消耗不到传统方案的 50%，业务用数整体满意度大幅提升。

一、方案核心技术创新

1、数据虚拟化技术

数据虚拟化技术是一种允许用户通过一个统一接口访问分散在不同数据源中的数据的技术。它通过将多个数据源（如数据库、文件系统、云存储等）的数据实现逻辑整合，使得用户可以像访问单一数据源一样来查询、分析和操作数据。

数据虚拟化的关键在于它提供了一个统一的逻辑数据视图层，在不复制数据的情况下，将不同数据源、不同位置和不同格式的数据进行整合，它隐藏了底层数据存储位置、技术接口、功能特性等的技术复杂性和差异性，并通过逻辑视图层提供统一的数据服务，为多个应用和用户提供支持，从而实现实时的数据访问，减少数据复制搬运成本，提高数据开发与变更的敏捷性。

数据虚拟化只需通过简单的三步流程（连接、合并、消费），即可实现企业全域数据的分析消费。

与传统的数据处理技术相比，数据虚拟化技术具有以下三大优势：

零复制：数据虚拟化通过将各种不同的、分布式的数据源（无论是本地还是云端）进行统一映射，创建一个具有语义一致的虚拟数据层、统一的数据定义语法、统一的数据模型定义，访问企业所有数据。
逻辑化：隐藏了数据环境和 ETL 链路的复杂性，能够让数据开发工程师更专注于数据模型的设计，而不是陷于琐碎枯燥的物理数据管道的运行监控、变更响应、性能调优、链路变更等运维工作上，能在降低成本的同时带来更高的扩展性，实现敏捷开发。
实时性：数据虚拟化实时"连接"底层数据来源，可向下游各个应用程序提供最新数据。

2、高性能联邦查询

方案实现了面向列存友好的高性能即席计算和零序列化数据传输，结合增强的 Parquet 文件向量化读取及查询下推技术，使得该银行的数据平台实现了多源异构数据源的高性能联邦查询。

3、透明化物化加速

在可加速范围方面，不仅支持传统物化视图 SPJG 的改写，还支持任意多层视图的嵌套、任意复杂的 SQL 改写；
在作业调度方面，支持各种灵活的作业调度策略，如强弱依赖调度、分区对齐、跨周期依赖以及自动分区补齐等；
在视图变更方面，通过多版本的数据改写和数据缝合技术，实现了变更的灵活性。

4、AI 增强的自适应加速

基于对全域逻辑数据视图定义和用户查询行为的解析，构建全局算子图谱，并实现基于代价的投影构建规划，智能识别枢纽节点，构建全局成本最优的关系投影，并自动合并相似关系投影存储、下线低收益预计算任务和存储，获得比传统 ETL 方案至少 50% 的成本节约以及更快的数据时效。

5、增量数据更新机制

基于上游数据变更和逻辑数据视图定义变更，自动对关系投影进行更新，而无需用户手动创建和触发 ETL 任务。通过上游数据更新事件触发或对元数据的变更监听，可自动推断增量变更，以及自动分区推导，完成大规模数据的下游数据增量更新，免除业务人员对数据更新的关注。

6、标准化协议接入

数据虚拟化的最终产出是将准备好的数据发布出去，以供下游消费。通过实施方案，该银行实现了为消费应用程序提供单点接入方式，通过 JDBC 标准协议，用户可以在熟悉的工具产品中直接通过标准 SQL 方便快捷地查询用户发布的数据集，而无需改变工作习惯。

7、精细化安全管控

本方案为该行提供了统一且精细的数据安全管控能力，以保障业务自助用数的安全性，包括 RBAC 的数据可见性和管理权限控制，以及行列级数据访问权限控制等。

二、方案架构

基于 Data Fabric 的敏捷数据准备与分析解决方案整体的逻辑架构如下：

添加图片注释，不超过 140 字（可选）

1、多源异构数据接入

通过数据虚拟化技术，集成了该银行 Gauss DB、ClickHouse 、MySQL 以及文件等不同数据源的数据。

融合分析：用户不需要考虑数据资产的物理存储位置，可以实现资产的快速引入，也可以实现不同存储介质上的数据跨源与融合分析，极大降低用户的找数和用数的成本；
统一平面实现数据查找和理解：通过对分散在各类数据源中的数据逻辑整合，形成了一份统一的数据资产，实现了行内多数据源的实时访问。

2、逻辑数据视图定义

面向业务语义定义逻辑数据视图，无需依赖 ETL 工程师准备应用层数据。支持多级视图嵌套，以及灵活的数据聚合与关联。

拖拽式、低门槛。提供了一种拖拽式的图形化数据编排界面，方便用户通过图形化交互界面来处理虚拟化数据；
业务人员仅需定义面向业务语义定义逻辑视图，无需关心底层复杂的物理链路编排。用户在编排完成后的数据定义成一个逻辑数据视图，最终用户无需关心该逻辑视图是否存在物化作业，以及物理数据存储在何处；
需求变更可以实现秒级灵活调整。由于基于逻辑化视图来定义用户的业务逻辑，所以新增和修改用户的业务逻辑变得成本更低且业务响应速度更快。

3、自适应物化加速

基于用户的查询历史以及数据编排逻辑，进行 SQL Pattern 的抽取，通过抽取算子模板引用关系统计、计算和存储成本、访问次数以及压缩比等因子，计算出有价值、且复用度高的模板，对模板进行泛化和关系投影（Relational Projection）的创建，以实现数据预计算链路的物理编排，保障每日十亿级数据量下的查询性能；

自动化链路编排：基于全局 MVPP 算法，计算查询和构建的全局成本，基于构建成本和查询成本整体最优逻辑，进行所有关系投影的整体优化合并。对于长链路的复杂构建节点，进行 SQL 算子的拆分，降低单次构建的成本和时间复杂度；
自动化的回收治理：基于设定策略，进行无效关系投影以及过期数据的回收。

4、标准化数据服务

通过 JDBC 标准化接口对接 Tableau 、圆方等下游分析工具，隔离应用与数据库的直接连接。

多集群高可用架构

虚拟化引擎层 Coordinator 及 Executor 节点都具备横向扩展能力，可以支持大规模数据访问集群的构建和查询并发；
高可用架构设计：引擎支持查询路由、物理集群分组、查询和构建分离等设计，实现了不同业务可以在一个集群中分配到不同的物理隔离资源组，同时在一个资源组内部，还可以根据查询的用户、执行代价等，进一步定制更精细层面的逻辑资源组路由策略，以达到不同业务、不同的 SQL 可以分配到不同的物理+逻辑资源组内，最大限度隔离部分异常查询对整个集群的影响，提升整体系统的稳定性和可用性。

5、一站式运维管理

提供统一的集群负载队列管理、全方位系统监控（稳定性、时效性、系统异常告警等）、投影任务管理、数据权限管理、投影策略调节及治理、查询历史及性能分析等能力。

【成果效益】

在双方的密切合作下，敏捷数据准备解决方案在该头部股份制银行顺利完成部署，并通过严格的企业级生产环境验证。通过该方案的实施，该银行实现了敏捷数据支撑能力的整体提升，取得了显著的业务效果:

1、业务数据获取时效显著提升

通过引入关系投影和智能更新技术，数据从产出到可供消费的准备周期显著缩短，从原来的 2 周缩短至 1-2 天，整体业务数据集的准备速度提升了 10 倍。

2、业务自助能力显著提高

该方案支持业务用户自助数据获取，响应速度不再受限于 IT 人工协助。原有仅 20% 需求能满足的情况，如今能够满足超过 80% 的敏捷数据需求，自助能力提高了 4 倍。用户通过该平台可以自主完成包括数据发现、需求定义、数据集成、分析建模等在内的全链路工作。基于"多源异构连接"和"定义即研发"的能力，实现业务自助数据准备，业务自定义 VDS（逻辑数据视图）数量 1600+ 个/月，自定义 VDS 占比 80%。

3、存储和计算成本降低 50%

通过智能投影和多级存储技术，避免全量重复计算，节约冗余存储，总体存储计算成本较之前降低超过 50%。并且平台可以根据情况动态调节投影策略，实现存储计算资源的最优分配。在该行业务场景的实际应用中，实际使用逻辑数据源对应的相关表，其数据存储约占 280 TB、加速存储 157 TB，实际加速比 57% 左右。

4、业务用数整体满意度大幅提升

基于用户查询行为，自适应物化加速和智能查询路由，实现报表 3s 内查询占比从原来的不足 70%，提升至 95%。在用户满意度调研中，95% 的业务用户对新方案给出了高度评价，满意度得分均在 4 分以上。用户普遍反映平台极大激活了数据资产价值，使用数据更加便捷和频繁，将继续扩大平台使用范围。

通过此次项目实施，该头部股份制银行在支持业务敏捷决策、实现数据驱动转型方面迈出了关键一步。项目成果全面验证了该解决方案的技术效果及业务价值。

【方案亮点】

多源异构数据的虚拟集成，零复制实现全行数据的实时汇聚与访问。无须搭建复杂繁琐的数据同步管道，通过数据虚拟化方式，快速连接集成全行各个位置、各种格式的数据源，形成全行统一的逻辑数据资产层，实现了行内多数据源的实时访问与融合分析，极大释放数据价值潜能。 
定义即研发的数据准备，彻底颠覆数据生产与消费的协作模式。创新性将逻辑定义与物理实现解耦，无须关心底层复杂的物理实现，只需基于业务语义进行逻辑数据视图的定义，在此之上，提供了极致的拖拽式界面，让业务人员零代码、低门槛的自助开展数据准备工作。将原来"业务提需求，IT 开发实现"的模式转变为"业务自助数据准备"的模式，极大提升了业务用数效率。
AI 增强的自适应物化加速，实现数据链路编排与运维的"自动驾驶"。通过实时、主动、持续的采集用户查询分析行为，并结合 AI、知识图谱等新技术和数据专家经验，实现了智能物化方案规划、智能物化链路编排、智能物化调度运维、智能查询路由改写、智能物化数据合并回收，实现全局成本最优的物化加速方案，极大提升数据查询响应体验。
统一数据资产目录，促进数据资产科学、有序、安全地开放与共享。通过实时主动的元数据采集，并融入 Al、NLP、知识图谱等新技术，实现全域元数据的智能采集及打标，形成行内统一的、语义化的数据资产目录，并让数据管理人员能够实施集中式数据治理与安全管控，促进数据资源科学、有序、安全的开放和共享。

凭借 Aloudata AIR 国内首个 Data Fabric 逻辑数据平台，Aloudata 在该头部股份制银行完美落地了基于 Data Fabric 的敏捷数据准备创新实践。目前，Aloudata 系列产品已在多个极高复杂度的数据环境中完成实地验证，点击了解更多信息。欢迎留言、反馈、分享，期待与您交流。