ARTS第五周:S - 数据编织 Data fabric

Brife

​数据编织/数据经纬(Data Fabric)是一种新型的数据管理和治理方法,旨在连接和整合所有数据源和数据目标,实现数据的无缝移动和访问。它是一种跨平台、跨云、跨技术的解决方案,可以连接各种类型的数据,包括结构化数据、非结构化数据和半结构化数据。

核心是要先理解什么是Fabric。Fabric是一种架构方法,该方法在各个节点之间提供完整的点对点连接,这些节点可以是数据源、存储、内部/外部应用程序、用户等任何访问数据或与数据相关的信息。

数据编制的特点和优势

数据编制具有以下特点和优势:

  1. 灵活性:数据编制采用灵活的架构,可以轻松地与各种数据源和目标集成,支持各种数据类型和数据模型。

  2. 动态性:数据编制能够动态地收集、管理和使用数据,无需进行重复或强制性的数据科学工作,实现了从数据源层面到分析、分析结果生成、协调和应用的一体化数据层(结构)。

  3. 可解释性:数据编制的真正价值在于它能够通过内置的分析技术进行学习,并主动提出有关数据应该在何处使用和进行更改的建议,使数据管理工作量减少70%,从而可以有效解决数据孤岛激增而人才供给不足的问题。

数据编制与数据治理和数据管理的关系

数据治理是指对数据进行规范、标准和安全控制,以确保数据的正确性、完整性、一致性和安全性。数据治理主要关注数据的质量管理、权责管理和安全 管理等方面。

数据管理是指对数据进行规划、组织、控制和利用的一系列活动,包括数据的采集、存储、处理、分析和应用等。数据管理的主要目的是提高数据的质量和价值,更好地支持业务决策。

数据编制与数据治理和数据管理有着密切的联系。数据编制可以帮助实现数据的跨平台整合,包括从各种数据源获取数据,将数据进行转换和增强,使其具有统一的格式和标准,并将数据提供给用户使用。在这个过程中,数据治理可以确保数据的正确性和安全性,而数据管理则可以帮助更好地规划和组织数据,使其更好地支持业务决策。因此,数据编制、数据治理和数据管理是相辅相成的,共同构成了一个完整的数据管理体系。

应用场景

数据编织的应用场景非常广泛:

  1. 数据集成:数据编织可以帮助企业将来自不同数据源的数据整合到一个统一的平台上,实现数据的共享和利用。
  2. 数据迁移:数据编织可以在不同云平台、不同技术之间迁移数据,实现数据的灵活管理和使用。
  3. 数据质量管理:数据编织可以检测和识别数据质量问题,例如数据缺失、数据重复、数据错误等,并提供解决方案。
  4. 数据安全:数据编织可以提供数据安全保障,包括数据加密、数据脱敏、数据访问控制等,确保数据的机密性和完整性。
  5. 数据治理:数据编织可以帮助企业实现数据治理,包括数据资产管理、数据质量管理、数据安全管理和数据合规管理等,提高数据管理和使用的效率和安全性。

数据编织是一种全面的数据管理方法,适用于各种类型的数据和各种应用场景,可以帮助企业实现数据的共享、整合、迁移和管理,提高企业的数据驱动能力。

可以应用于不同行业和领域。以下是一些应用案例:

  1. 金融行业:金融行业需要进行风险评估、信用评级和投资决策等,数据编制可以将不同来源的金融数据进行整合和分析,提供更准确、可靠的数据支持。

  2. 医疗行业:医疗行业需要进行疾病诊断、治疗方案制定和药物研发等,数据编制可以将不同来源的医疗数据进行整合和分析,提供更准确、可靠的数据支持。

  3. 零售行业:零售行业需要进行市场调研、销售预测和精准营销等,数据编制可以将不同来源的市场数据进行整合和分析,提供更准确、可靠的数据支持。

  4. 政府机构:政府机构需要进行社会管理、公共安全和环境保护等,数据编制可以将不同来源的政府数据进行整合和分析,提供更准确、可靠的数据支持。

通过数据编制,可以提高数据的质量和可靠性,从而提升数据分析的效果和准确性。同时,数据编制还可以帮助解决数据孤岛问题,实现数据的互联互通,提高数据的可用性和易用性,更好地支持业务决策。

Forrester(链接位于 ibm.com 外部)在"Enterprise Data Fabric Enabled DataOps"报告中进行了描述。这六个层包括以下内容:

  1. 数据管理层:负责数据治理和数据安全性。
  2. 数据摄取层:该层开始将云数据拼接在一起,查找结构化和非结构化数据之间的联系。
  3. 数据处理:数据处理层细化数据,以确保仅显示相关数据以进行数据提取。
  4. 数据编排:此关键层执行数据结构的一些最重要的工作 - 转换、集成和清理数据,使其可供整个企业的团队使用。
  5. 数据发现:此层提供了集成不同数据源的新机会。例如,它可能会找到连接供应链数据集市和客户关系管理数据系统中数据的方法,从而为客户提供产品或提高客户满意度的新机会。
  6. 数据访问:此层允许使用数据,确保某些团队具有正确的权限以遵守政府法规。此外,此图层有助于通过使用仪表盘和其他数据可视化工具显示相关数据。

数据编制的技术和方法

至少需要四个方面的基本能力:

  1. 能够在数据之间建立虚拟链接,简化数据访问的模式,从而减少数据复制的数量。

  2. 需要建立一个企业的数据目录,并需要利用AI技术,自动化地实现基于语义和知识的分析,理解数据及其业务含义,并建立知识图谱, 从而使数据目录变得智能化和自动化。能够让需要数据的用户,随时了解他所需要的数据在哪里、数据质量如何等。

  3. 建立自动化的数据平台,并且允许用户通过自服务的方式,访问并获取数据。

  4. 通过提供整体的自动化策略,确保数据安全,增加数据的隐私和权限保护,并提高数据的质量。

数据编制涉及的技术包括自动化、人工智能、数据管道和数据编排等。其中,自动化技术可以大大提高数据编制的效率和准确性,而人工智能技术则可以帮助数据编制进行智能分析和预测,从而实现更高级的数据管理和控制。

数据编制的方法包括数据质量规则定义、数据清洗、数据转换和增强等。数据质量规则定义是指对数据进行规范化和标准化,以确保数据的正确性和一致性。数据清洗则是去除重复和无效数据,纠正错误和缺失数据,提高数据的质量和可用性。数据转换和增强则是指将不同类型的数据进行转换和整合,使其具有统一的格式和标准,以便后续的分析和应用。

通过数据编制的技术和方法,可以将不同来源、不同类型、不同格式的数据进行统一管理和控制,提高数据的可用性和可靠性,从而更好地支持业务决策。

数据编制的挑战和未来发展

  1. 数据复杂性和多样性:不同来源、不同类型、不同格式的数据给数据编制带来了很大的挑战和困难。

  2. 数据安全和隐私保护:在数据传输和共享过程中,如何保护个人隐私和企业机密数据的安全是一个重要的问题。

  3. 数据质量和可靠性:不同来源的数据可能存在质量问题,如错误、缺失或重复数据等,如何提高数据质量是一个关键问题。

未来发展和创新的方向和趋势包括:

  1. 联邦学习:联邦学习是一种机器学习技术,可以在不共享原始数据的情况下进行模型训练,从而更好地保护数据隐私和安全。

  2. 隐私保护:随着隐私保护意识的提高,隐私保护技术将越来越受到重视,如差分隐私、加密技术等。

  3. 人工智能和自动化:随着人工智能和自动化技术的发展,数据编制将更加智能化和自动化,从而提高效率和准确性。

推动数据编制发展的策略和建议包括:

  1. 建立统一的数据编制标准和规范:制定通用的数据编制标准和规范,以便不同系统和平台之间的数据交换和共享。

  2. 培养专业人才:加强数据编制专业人才的培养,提高人才的技能和素质,以满足日益增长的数据管理需求。

  3. 加强合作和交流:加强不同行业和领域之间的合作和交流,共同推动数据编制的发展和创新。

Question

它和数据中台的区别是什么

数据编织(Data Fabric)和数据中台(Data Platform)在功能和应用方面存在一些区别。总体来说,数据编织是一种更灵活、更广泛的数据连接和整合方式,而数据中台则是一种更加强调集成和整合的综合性平台。以下是它们的主要区别:

  1. 功能方面:数据编织是一种数据架构理念,强调数据的无边界性和灵活性,旨在连接和整合所有类型的数据源和目标,实现数据的无缝移动和访问。而数据中台是一种更加强调集成和整合的综合性平台,提供数据采集、存储、处理、分析等服务,支持各种数据应用,包括大数据分析、数据挖掘、数据可视化等。
  2. 应用方面:数据编织的应用场景更加广泛,可以应用于不同类型的数据源和目标,包括结构化数据、非结构化数据和半结构化数据。而数据中台则更加强调企业级的数据应用,为企业提供端到端的数据解决方案,支持企业的数字化转型和业务创新。
  3. 开放性方面:数据编织是一种开放的架构理念,不依赖于任何特定的技术或平台,可以与不同的数据源和目标进行连接和整合。而数据中台则通常采用封闭的体系架构,更加强调与企业自身的技术体系和生态系统相融合。
  4. 自动化程度方面:数据编织强调自动化的大数据集成、整合和治理,而数据中台则更多地依赖于人工操作和管理。

数据编织和数据中台在功能、应用、开放性和自动化程度等方面存在一些区别。数据编织更加灵活和广泛,可以连接和整合所有类型的数据源和目标,而数据中台更加注重企业级的数据应用和集成整合。

References

What is a data fabric? | IBM

Data Fabric (数据经纬): 一个IT的风口? - 知乎 (zhihu.com)

【数据编制架构】什么是数据编织(Data fabric)? 完整指南-腾讯云开发者社区-腾讯云 (tencent.com)

What is a Data Fabric? (tableau.com)

相关推荐
A-刘晨阳19 分钟前
时序数据库选型指南:从大数据视角切入,聚焦 Apache IoTDB
大数据·apache·时序数据库·iotdb
汤姆yu19 分钟前
基于大数据的短视频流量数据分析与可视化
大数据·数据挖掘·数据分析
Ribou21 分钟前
Elasticsearch 9.2.0 三节点集群配置
大数据·elasticsearch·搜索引擎
啊吧怪不啊吧1 小时前
SQL之表的时间类内置函数详解
大数据·服务器·数据库·sql
Dev7z1 小时前
结合HOG特征与支持向量机(SVM)的车牌字符识别系统
人工智能·分类·数据挖掘
TDengine (老段)2 小时前
TDengine 产品组件 taosX
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
字节数据平台3 小时前
火山引擎发布Data Agent新能力,推动用户洞察进入“智能3.0时代”
大数据·人工智能
TDengine (老段)3 小时前
TDengine 字符串函数 CHAR_LENGTH 用户手册
大数据·数据库·时序数据库·tdengine·涛思数据
TDengine (老段)3 小时前
TDengine 数学函数 CRC32 用户手册
java·大数据·数据库·sql·时序数据库·tdengine·1024程序员节
数智顾问3 小时前
(111页PPT)大型集团IT治理体系规划详细解决方案(附下载方式)
大数据·人工智能