浅谈数据管理架构 Data Fabric(数据编织)及其关键特征、落地应用

伴随着企业从数字化转型迈向更先进的数智化运营新阶段,对看数、用数的依赖越来越强,但数据的海量增长给数据管理带来一系列难题,如数据类型和加工链路日益复杂,数据存储和计算引擎更加分散,数据需求响应与数据质量、数据安全风险难以兼顾,数据流通过程中的合规性冲突,以及混合多云环境下的"数据孤岛"等。

简言之,进入数智化时代,企业数据管理正变得异常复杂和艰难,传统的数据管理架构往往依赖于单一、物理集中的数据仓库系统,这种架构体系已经很难适应企业发展需求。在此背景下,Data Fabric(数据编织)这一全新数据管理架构理念应运而生。

Data Fabric(数据编织)最早由 Forrester 的分析师 Noel Yuhanna 提出,Forrester 认为 Data Fabric(数据编织) "提供了一个统一的、集成的、智能的端到端的数据平台,以支持新出现的需求场景"。同样的,Data Fabric(数据编织)也获得 Gartner 高度认同,分别出现在 2019 年和 2021 年 Gartner 的十大数据分析技术趋势里,以及 2022 年 Gartner 的十大战略技术趋势里。

Gartner 将 Data Fabric 定义为"一种新兴的数据管理设计理念,用于实现灵活、可重用、增强的数据管道、数据语义和数据服务,需要利用主动元数据、知识图谱、数据语义和人工智能等来实现跨异构数据源的增强数据集成、编织和共享。"

Gartner 还强调,Data Fabric(数据编织)的真正价值在于它能够通过内置的分析技术动态改进数据的使用,同时通过将自动化能力添加到整个数据管理中,使数据管理工作量减少 70% 并加快价值实现速度。由此可见,Data Fabric(数据编织)并不是一种技术,也不是一种产品,而是一种全新的数据管理架构理念,它的主要目标是通过其内置分析能力,来动态改善数据的使用,打破企业内部的"数据孤岛",最大化释放数据价值。

作为国内 Data Fabric(数据编织)架构理念的实践者和引领者,Aloudata 大应科技认为其关键特征包含以下几点:

  • 连接数据,而非集中数据:通过数据虚拟化引擎,可以对外屏蔽数据源的位置和格式,无需数据搬运,实现多源异构、跨云、跨组织的数据集成。
  • 语义建模,而非物理建模:数据集成是逻辑集成(Connect)而非物理集成(Collect),因此在数据建模、转换和准备上,也是基于数据语义的逻辑建模、转换和准备,最终交付的是逻辑数据集,而非物理表。
  • 动态编排,而非人工编排:基于语义的逻辑数据集成和处理,逻辑数据链路会动态编织和自动化执行,而不是依赖 ETL 人工编排,提升计算查询性能,降低计算存储成本,实现"按需计算"。
  • 统一访问,而非多点访问:数据虚拟化可以更大范围地整合数据,打破原有物理集成架构下难以形成单中心的限制,形成统一的数据访问入口,而不是以不同的数据存储或查询引擎为中心形成各自的访问入口。
  • 自助服务,而非专家服务:基于数据虚拟化引擎和数据语义引擎,以及背后的动态编织能力,可以破解现有 "ETL 驱动的集中式数据工程架构下,数据工程团队成为影响数智化运营效率的最大瓶颈"这一问题,让业务分析师和业务人员实现自助服务。
  • 主动治理,而非被动治理:Data Fabric 强调数据治理应更主动和智能,即基于主动元数据构建智能治理能力,融入到数据全生命周期的每个环节里去,实现主动、智能的数据治理。

那么,企业该如何落地 Data Fabric(数据编织)架构呢?Aloudata 结合自身在 EB 级数据管理领域中深厚的实践经历,在业内首倡"NoETL"架构理念,推出了全新的"NoETL"驱动的 Data Fabric 数据架构,并以此为基础,自研了 Aloudata AIR 逻辑数据平台,帮助企业通过零数据搬运,即可轻松实现全域数据的集成整合和自适应加速。

Aloudata AIR 逻辑数据平台采用数据虚拟化技术构建,能够帮助企业无需移动数据、无需关注数据任务运维、无需担心查询性能,就可以实现多源异构数据的逻辑连接与整合,并通过全局数据目录和统一数据服务为下游用户与应用提供统一的数据发现与访问入口,解决由"数据孤岛"带来的全局数据查找难、跨源联邦查询难和集中安全治理等问题。

同时,Aloudata AIR 逻辑数据平台通过 AI 增强的自适应加速技术,实现自动物化链路编排和智能查询下推,让用户无需担心虚拟化带来的大数据量查询性能问题,实现全域数据要素更低成本、更实时地流通与消费。

目前,Aloudata AIR 逻辑数据平台已在包括招商银行在内的多个头部企业生产场景中落地验证,实现了数据的统一访问和管理,显著提升了业务效率和数据管理的灵活性,同时大幅降低存算成本。点击了解更多

相关推荐
胡耀超1 天前
如何从全局视角规划项目与战略决策(“精准接送”案例、技术架构设计与选型、业务逻辑及产品商业模式探讨)
大数据·数据挖掘·软件架构·商业模式·数据管理
PersistJiao6 天前
CDMP、CDGA和CDGP的区别
cdga·cdgp·数据治理·数据管理·cdmp
ssxueyi8 天前
Flink CDC技术介绍
大数据·flink·归档日志·数据集成·流读·实时集成
RestCloud17 天前
ETL是什么?浅谈ETL对数据仓库的重要性
数据仓库·etl·数据集成
青云交19 天前
大数据新视界 -- Hive 数据湖集成与数据治理(下)(26 / 30)
hive·sql·数据治理·数据管理·数据湖集成·大数据集成·数据质量保障·数据湖优化
RestCloud19 天前
ETL工具观察:ETLCloud与MDM是什么关系?
数据仓库·数据分析·etl·数据集成·mdm
青云交20 天前
大数据新视界 -- Hive 数据湖架构中的角色与应用(上)(25 / 30)
hive·sql·数据分析·数据管理·数据应用·大数据存储·数据湖架构·角色定位
RestCloud22 天前
如何选择最适合企业的ETL解决方案?
数据仓库·etl·kettle·datax·数据处理·数据集成
胡耀超1 个月前
《DAMA 数据管理知识体系指南》读书笔记 - 第 2 章 数据处理伦理
数据·数据管理·数据处理伦理