数据虚拟化技术的兴起,与传统数据仓库体系的弊端日益显现有着密切关系。
过去,企业通常会构建数据仓库来存储与加工结构化数据。数据仓库虽然实现了数据的物理集中存储,但过于依赖大量的 ETL 工程师来支持数据的集成、准备、开发与管理。随着半结构、非结构化数据量的急剧膨胀,以及业务看数、用数需求的高频化,传统的数据仓库体系已逐渐无法有效应对这些新挑战。
一方面,对于 ETL 工程师而言,海量数据的处理和管理变得更加繁重,人工作业难以快速响应业务侧日益增长的需求。若选择扩大 ETL 团队规模,不仅会加重企业的人力成本负担,同时也可能因团队规模的扩大而引发管理和协调上的新问题。另一方面,随着业务复杂度的提升和各类新业务的涌现,业务人员对数据的依赖性和期望也在迅速增强,越来越希望以更高效、更便捷的方式获取到更全面、更准确的数据支持。
简言之,数据消费端即业务人员,期望通过自定义数据查询来高效实现跨源、跨环境数据的透明集成、自助准备及高性能服务供给,从而实现全链路的自助用数。传统 ETL 已难以应对,数据虚拟化技术应运而生。
数据虚拟化技术是 Data Fabric 架构理念的核心技术,使用户能够通过统一的接口,无需数据复制,即可直接访问和整合分散在众多数据源中的异构数据。
它通过逻辑整合不同数据源、位置及格式(涵盖数据库、文件系统、云存储等)的数据,隐藏了底层数据存储位置、技术接口、代码语言、使用平台等技术的复杂性和差异性,并通过逻辑视图提供统一的数据服务,让用户可以像访问单一数据源一样来查询、分析和操作数据。这不仅显著降低了传统 ETL 工程中数据复制、搬运、加工的高昂成本,还极大地提升了数据开发与变更的敏捷性和效率。
与传统的 ETL 工程相比,数据虚拟化技术具有以下三大优势:
- 零复制:通过将各种不同的、分布式的数据源,无论是本地还是云端,进行统一映射,创建一个具有语义一致性的虚拟数据层、统一的数据定义语法、统一的数据模型定义,实现对企业全域数据的访问。
- 逻辑化:隐藏了数据环境和 ETL 链路的复杂性,能够让数据开发工程师更专注于数据模型的设计,而不是陷于琐碎枯燥的物理数据管道的运行监控、变更响应、性能调优、链路变更等运维工作上,在降低成本的同时带来更高的扩展性,实现敏捷开发。
- 实时性:数据虚拟化实时"连接"底层数据来源,可向下游各个应用程序提供最新数据。
作为国内 Data Fabric 理念的实践者和引领者,Aloudata 大应科技打造了国内首个 Data Fabric 逻辑数据平台------ Aloudata AIR,通过自研的数据虚拟化技术,可帮助企业轻松实现多源异构数据的集成整合和自适应加速。具体来看,Aloudata AIR 平台主要由数据连接层、数据虚拟化层、数据消费层构成:
- 数据连接层:在这一层,用户可以轻松地将企业全域数据逻辑连接起来,无论物理位置和数据格式如何,均可快速访问,且无需复制数据,让数据随手可得。
- 数据虚拟化层:完成数据连接之后,在这一层用户可以通过自动化的链路编排和 AI 增强的自适应查询加速保障功能,实现跨数据源的数据整合,对数据进行处理加工,满足业务分析需求。
- 数据消费层:进入这一层,平台提供了如 JDBC 等各种标准化接口,对接下游指标平台、BI 工具及其他数据应用工具,用户可以在自己熟悉和喜欢的工具上进行数据分析和应用,实现数据普惠化。
此外,Aloudata AIR 平台还提供了统一数据资产目录,利用 AI、知识图谱等技术增强数据的语义,生成 360° 数据资产报告,帮助用户快速掌握数据资产全貌,并支持通过语义化搜索、类目/标签筛选等方式,快速且清晰地理解数据背后的业务含义。
在具体实践中,Aloudata AIR 也已经取得了显著成效,如某券商通过该平台连接了 100 多个数据库,虚拟映射了 2 万多张表,实现交付效率提升至少 10 倍,研发链路管理工作量减少 30%,数据存储和计算成本节约 50%。Aloudata AIR 在招商银行的敏捷数据准备与分析场景中的实践成果更是入选 2023 中国信通院大数据"星河"标杆案例。
如果您现在计划推进多源异构数据的统一整合或集成,或者考虑构建敏捷的数据服务层 ,提升业务用数的效率,那不妨先了解下 Aloudata AIR 逻辑数据平台,或许能为您带来新的思路。点击了解。