数据编织架构是现代数据仓库(MDW)架构的演进:一种高级层次,建立在MDW之上,旨在增强数据的可访问性、安全性、可发现性和可用性。想象一下数据编织在整个公司中蔓延,汇集所有数据并将其提供给需要的每个人,无论是公司内部还是外部。这种架构可以消耗各种大小、速度或类型的数据。数据编织哲学中最重要的一点是,数据编织解决方案可以消耗组织内的任何和所有数据。
这是我对数据编织的定义;行业中其他人对其的定义可能不同。有些人甚至将其与现代数据仓库的术语互换使用!例如,咨询公司 Gartner 给出了类似的定义,称数据编织是:
"一种设计概念,作为数据和连接过程的集成层(编织)。数据编织利用持续分析现有、可发现和推断出的元数据资产,支持跨所有环境(包括混合和多云平台)集成和可重用数据的设计、部署和利用。"
Gartner 的观点与我的观点有所不同之处在于,他们认为数据虚拟化(您在第六章中了解过)是数据编织技术的一个重要组成部分,它减少了从孤立系统移动或复制数据的需要。Gartner 想象了一个"智能数据编织",利用知识图谱、人工智能和机器学习来自动化数据发现和目录化、发现数据关系、编排和整合数据以及自动发现元数据。
数据编织架构
数据编织架构包含了现代数据仓库(MDW)的所有组件,但添加了一些功能。图11-1显示了这种架构的图表,其中标有数据的旅程阶段,就像图10-2中的标号一样。数据在数据编织中的处理过程与在MDW中相同;正如您可能从第10章中回忆起的那样,这些阶段是(1)摄取、(2)存储、(3)转换、(4)建模和(5)可视化。
那么,数据编织相比MDW提供了什么?本节将介绍其附加功能。
数据访问策略
数据访问策略是数据治理的关键。它们由一组指南、规则和程序组成,用于控制组织内谁可以访问哪些信息,这些信息可以如何使用,以及何时可以授予或拒绝访问权限。它们有助于确保敏感数据的安全、隐私和完整性,以及符合法律和法规,如英国的《通用数据保护条例》(GDPR)和美国的《健康保险可移植性和责任法案》(HIPAA)。这些策略通常涵盖数据分类、用户身份验证和授权、数据加密、数据保留、数据备份和恢复以及数据处置等主题。 组织内的所有数据请求必须遵守其已建立的数据访问策略,并必须通过特定的机制(例如API、驱动程序或数据虚拟化)进行处理,以确保符合HIPAA等法规。例如,医疗机构的数据访问策略可能要求只有经过授权的医务人员可以访问患者的医疗记录。这些策略应概述验证员工资格的程序和信息的可接受用途。为了促进这种受控访问,组织可能会实施与安全认证系统进行接口的API。有了这种安全措施,当医疗提供者请求患者记录时,API会在授予访问权限之前检查提供者的凭据与访问策略的匹配情况。
元数据目录
数据编织包括一个元数据目录:一个存储有关数据资产的信息的存储库,包括它们的结构、关系和特性。它提供了一种集中、有组织的管理和发现数据的方式,使用户更容易找到和理解他们所需的数据。例如,假设用户在元数据目录中搜索"客户",结果将包括包含客户数据的任何文件、数据库表、报告或仪表板。使查看已完成的摄取和报告变得可能有助于所有人避免重复努力。
目录的一个重要部分是数据血统,即有关任何给定数据的历史记录,包括它来自何处、如何转换以及存储位置。数据血统用于遵守诸如数据隐私法律之类的法规。它也是您可以追踪数据来源和经历的转换的地方,这是了解数据如何创建和其可靠性的重要部分。您不希望基于数据做出重要决策,除非您知道您可以信任它!例如,如果用户询问报告中的特定值,您可以在元数据目录中查找其血统,以显示该值是如何产生的。
主数据管理
正如您在第6章中所了解的,MDM是从公司内部各种来源收集、 consoli,并维护一致和准确的数据,以创建主数据的单一权威来源的过程。这些数据通常是非交易性的,描述了公司的关键实体,如客户、产品、供应商和员工。 MDM帮助公司做出明智的决策,并避免与数据相关的问题,如重复记录、不一致和错误信息。
数据虚拟化
您也在第6章中遇到了数据虚拟化。为了提醒您,数据虚拟化是一种软件架构,允许应用程序和最终用户从多个来源访问数据,就像它们存储在单个位置一样。虚拟化的数据存储在逻辑层中,充当终端用户和数据源之间的中间层。该虚拟层是一个访问点,抽象出底层数据源的复杂性,使终端用户能够实时访问和组合来自多个来源的数据,而无需复制或物理集成它。 使用数据虚拟化并不意味着您需要连接所有数据源。在大多数情况下,它仅用于少数情况,大多数数据仍然集中存储。行业内的一些人认为数据虚拟化是数据编织的一个明确特征,认为没有虚拟化的架构就不是数据编织;我不同意。在我对数据编织的定义中,虚拟化是可选的。
实时处理
正如您在第9章中所见,实时处理是指在数据可用时立即处理数据并产生即时结果,而不会出现任何明显的延迟。这使您能够基于最新信息做出决策(例如,在驾驶时的交通信息)。
API
API提供了一种标准化的方式,可以从各种来源(如数据湖或RDW)获取数据,而无需共享数据的具体位置,而不是依赖连接字符串。如果数据被移动,您只需要更新API的内部代码;调用API的任何应用程序都不受影响。这使得更容易利用新技术。
API还可以整合多种类型的安全措施。它们还可以提供灵活的安全过滤,对用户可以访问哪些数据进行细粒度控制。
服务
数据编织可以构建为"块",这样更容易重用代码。例如,您公司内部可能有其他人不需要完整的数据编织,但确实需要您创建的清理数据或摄取数据的代码。您可以使代码通用化,并将其封装在任何人都可以使用的服务中。
产品
整个数据编织可以作为产品捆绑销售。如果专门针对某个行业(例如医疗保健),这将特别具有吸引力。
为什么要从MDW过渡到数据编织架构呢?
组织决定从MDW过渡到数据编织架构有几个原因。尽管MDW传统上是许多企业数据基础设施的基石,但随着数据类型的快速演变,它们可能变得过于僵化,有时很难扩展。相比之下,数据编织架构设计时考虑了可扩展性。其固有的灵活性使其能够轻松适应各种数据类型和来源,使其能够应对当前的数据需求,并在一定程度上具备未来的可持续性。
此外,数据来源的多样性可能令人不知所措。数据编织架构可以将各种来源无缝地编织在一起,提供一个统一的数据视图,使处理多方面的数据流变得更加容易和高效。
在快速变化的商业环境中,实时处理数据并获得即时见解的能力至关重要。数据编织架构通过支持实时数据处理来满足这一需求,为企业提供对最新数据的即时访问。
此外,随着对数据泄露的担忧增加和对遵守数据保护法规的强调加剧,数据安全和治理变得更加关键。数据编织架构通过先进的访问策略解决了这些问题,提供了更安全的数据环境。它还通过限制仅授权用户的访问来增强数据治理,保护敏感信息免受潜在威胁。对于跨不同司法管辖区运营的跨国公司,每个司法管辖区都有不同的数据保护法规,数据编织架构的先进治理能力有助于确保数据无论身在何处都能保持合规。
最后,某些行业,如股票交易和电子商务,以快速变化的市场条件为特征。在这些动荡的世界中,实时更新不仅是优势,而且是必需的。数据编织架构的实时数据处理支持使这种即时性变得无价;它使这些企业保持敏捷、知情并随时准备好适应变化。
潜在的缺点
虽然数据编织架构具有许多优势,但并非没有挑战。从现代数据仓库(MDW)过渡到数据编织可能会消耗大量资源,初始阶段可能会遇到与成本、培训和集成相关的问题。此外,并非所有企业都需要数据编织的高级功能------对于数据来源有限且处理需求简单的小型企业而言,MDW 可能已经足够。
此外,数据编织的固有复杂性可能会增加故障排除的难度。在进行转变之前,确保您的组织拥有内部或通过合作伙伴获得所需的专业知识至关重要。
尽管数据编织为现代数据管理挑战提供了前沿解决方案,但对于每家企业来说,在进行转变之前评估其独特需求、潜在投资回报和长期战略目标至关重要。
总结
在本章中,我们深入探讨了数据编织架构的概念,这是现代数据仓库(MDW)的高级演进,旨在增强数据的可访问性、安全性、可发现性和可用性。我定义了数据编织,并将我的定义与行业观点进行了对比,突出了诸如数据虚拟化等方面的差异。本章概述了将MDW转变为数据编织领域的八项关键技术,而不对两者进行严格的划分。
我还解释了数据编织架构的核心组成部分,包括数据访问策略、元数据目录、主数据管理、实时处理、API等,以及数据虚拟化等可选元素。本章强调了数据编织的适应性,特别是在处理大数据量和实时处理需求方面。
我们探讨了从MDW过渡到数据编织的原因,以及复杂性和资源密集型转变等潜在缺点。简而言之,每个组织在采纳这一前沿解决方案之前,都应认真评估其独特需求和能力。