解读数据架构——大数据

在2020年代,构建数据架构的公司数量激增。这种增长不太可能很快放缓,主要是因为现在比以往任何时候都有更多的数据来源:从社交媒体、物联网(IoT)设备、自制应用程序到第三方软件等等。根据2023年BCG的一项研究,"从2018年到2021年产生的数据量大约翻了一番,达到约84 ZB,预计这种增长速度将继续。"研究人员"估计,从2021年到2024年,产生的数据量将以每年21%的复合增长率增长,达到149 ZB。"公司知道,通过收集这些数据并用它来分析过去和现在,并对未来进行预测,他们可以节省数百万美元并增加收入,但要做到这一点,他们需要一种存储所有这些数据的方式。

在商业世界中,急于尽快构建数据架构。这些架构需要准备好处理任何未来的数据,无论其大小、速度或类型如何,并保持其准确性。而我们这些与数据架构打交道的人需要清楚地了解它们的工作原理和选项。这就是这本书的用武之地。我亲眼见证了不正确理解数据架构概念的后果。我知道有一家公司花费了1亿美元在两年内建立了一个数据架构,结果发现该架构使用了错误的技术,使用起来太困难,并且不够灵活,无法处理某些类型的数据。他们不得不将其废弃,并从头开始。不要让这种情况发生在你身上!

这一切都关乎在正确的时间以正确的格式将正确的信息传递给正确的人员。为此,您需要一个数据架构来接收、存储、转换和建模数据(大数据处理),以便准确且轻松地使用。您需要一个架构,使任何最终用户,即使是技术知识非常有限的用户,也能分析数据并生成报告和仪表板,而不是依靠具有深厚技术知识的IT人员为他们完成这些任务。

第1章首先介绍了大数据及其一些基本概念。然后我讨论了公司如何使用他们的数据,重点是商业智能以及随着公司数据架构成熟而增长的使用方式。

什么是大数据,它如何帮助您?

尽管在大数据中使用了"大"这个词,但它不仅仅涉及数据的大小。它还涉及到您公司内部的所有数据,无论其大小,以及对您有用的公司外部的所有数据。这些数据可以是任何格式,并且可以以任何程度的规律性收集。因此,定义大数据的最佳方式是将其视为所有数据,无论其大小(量)、速度(速度)或类型(多样性)。除了这些标准外,还有三个因素可以用来描述数据:真实性、变化性和价值性。它们一起通常被称为大数据的"六个V",如图1-1所示。

让我们更仔细地看一下每一个:

Volume(量) 量指的是生成和存储的数据数量之多。这些数据可以来自各种来源,包括社交媒体、电子商务交易、科学实验、物联网设备的传感器数据等等。例如,订单录入系统的数据可能每天达到几个TB,而物联网设备可以每分钟传输数百万个事件,每天生成数百TB的数据。

Variety(多样性) 多样性指的是数据来源和格式的广泛范围。这些数据可以进一步分为结构化数据(来自关系型数据库)、半结构化数据(如日志和CSV、XML和JSON格式)、非结构化数据(如电子邮件、文档和PDF文件)和二进制数据(图像、音频、视频)。例如,订单录入系统的数据属于结构化数据,因为它来自关系型数据库,而物联网设备的数据可能以JSON格式呈现。

Velocity(速度) 速度指的是数据生成和处理的速度。不经常收集数据通常称为批处理;例如,每天晚上收集和处理当天的订单。数据也可以非常频繁地甚至实时收集,特别是如果数据以高速率生成,例如来自社交媒体、物联网设备和移动应用程序的数据。

Veracity(真实性) 真实性涉及数据的准确性和可靠性。大数据来自各种各样的来源。不可靠或不完整的来源可能会损害数据的质量。例如,如果数据来自物联网设备,比如安装在您家前的户外摄像头,指向车道,当它检测到有人时,它会给您发送一条短信,可能会受到环境因素的影响,例如天气,使设备错误地检测到人,从而损坏数据。因此,数据在接收时需要进行验证。

Variability(变异性) 变异性指数据在格式、质量和含义方面的一致性(或不一致性)。处理和分析结构化、半结构化和非结构化数据格式需要不同的工具和技术。例如,来自物联网设备的传感器数据的类型、频率和质量可能会有很大的差异。温度和湿度传感器可能会定期生成数据点,而运动传感器可能仅在检测到运动时才生成数据。

Value(价值) 价值是最重要的V,它与数据的用处和相关性有关。公司利用大数据获得洞见,做出可产生商业价值的决策,例如提高效率、节省成本或开辟新的收入来源。例如,通过分析客户数据,组织可以更好地了解客户的行为、偏好和需求。他们可以利用这些信息制定更有针对性的营销活动,改善客户体验,推动销售。

收集大数据使公司能够获得洞见,帮助他们做出更好的商业决策。预测分析是一种数据分析类型,涉及使用统计算法和机器学习分析历史数据,并对未来事件和趋势进行预测。这使企业能够采取主动措施,而不仅仅是被动反应。

您会听到很多公司将数据称为"新石油",因为在今天的数字经济中,它已成为一种极其宝贵的资源,就像在工业经济中的石油一样。数据在很多方面都像石油:

  • 它是一种原材料,需要被开采、精炼和加工才能发挥作用。在数据的情况下,这涉及到收集、存储和分析数据,以获得可以推动业务决策的见解。
  • 它是非常宝贵的。收集和分析大量数据的公司可以用它来改进其产品和服务,做出更好的商业决策,并获得竞争优势。
  • 它可以以多种方式使用。例如,如果您使用数据来训练机器学习算法,然后可以使用这些算法来自动化任务,识别模式并进行预测。
  • 它是一种具有转变作用的强大资源。广泛使用石油推动了产业的增长并启用了新技术,而数据则促进了人工智能、机器学习和预测分析等领域的进步。
  • 它可以成为权力和影响的来源,由于所有前述因素。

例如,您可以使用大数据生成报告和仪表板,告诉您销售情况不佳的地方,并"事后"采取措施来改善销售。您还可以使用机器学习来预测未来销售将下降的地方,并采取主动措施来防止下降。这就是商业智能(BI):收集、分析和使用数据以帮助企业做出更加明智的决策的过程。

正如图1-2所示,我可以从新的来源收集数据,例如物联网设备、网络日志和社交媒体,以及旧的来源,例如业务线、企业资源规划(ERP)和客户关系管理(CRM)应用程序。这些数据可以是多种格式,例如CSV文件、JSON文件和Parquet文件。它可以每小时传输一次,也可以每秒传输多次(这称为实时流式传输)。

对于公司来说,了解他们在数据利用方面与其他公司相比处于什么阶段是很重要的。这被称为数据成熟度,接下来的部分将展示数据成熟度旅程的各个阶段,以便您了解您的公司所处的位置。

数据成熟度

您可能听过许多IT行业人士使用数字转型这一术语,它指的是公司如何在业务各个方面嵌入技术,从而实现对数据的价值获取方式以及运营和为客户提供价值方式的根本性变革。该过程涉及摆脱传统、手工或纸质化的流程,转向数字化流程,利用技术的力量提高效率、生产力和创新能力。这种转型的一个重要部分通常是利用数据改善公司的业务,这可能意味着创建一个客户360度档案以提高客户体验,或者利用机器学习提高生产线的速度和准确性。

这种数字转型可以分为四个阶段,被称为企业数据成熟度阶段,如图1-3所示。尽管这个术语在IT行业广泛使用,但我对这些阶段有自己的看法。它们描述了组织在管理、利用和从数据中获取价值方面所达到的发展和复杂程度。这个模型是评估组织数据管理能力和对高级分析、人工智能和其他数据驱动型计划的准备程度的一种方法。每个阶段代表着利用数据实现业务价值和决策的一大步。本节剩余部分将介绍每个阶段。

第一阶段:反应性

在第一阶段,公司的数据分散在各处,可能存储在许多不同文件系统的一堆Excel电子表格和/或桌面数据库中,通过电子邮件传送到各个地方。数据架构师将其称为"spreadmart"(即"电子表格数据集市"):这是组织内部经常发现的非正式、分散的数据集合,使用电子表格来存储、管理和分析数据。个人或团队通常独立于组织的集中式数据管理系统或官方数据仓库创建和维护spreadmart。spreadmart存在数据不一致、缺乏治理、可伸缩性有限和低效等问题(因为它们经常导致大量重复劳动)。

第二阶段:信息性

当公司开始将数据集中化,使分析和报告变得更加容易时,它们就达到了第二个成熟度阶段。阶段1和阶段2用于历史报告,或者从过去看到趋势和模式,因此图1-3将它们称为"后视镜"。在这些阶段,您是在对已经发生的事情做出反应。 在第2阶段,用于收集数据的解决方案通常不太具有可伸缩性。通常,它能处理的数据大小和类型有限,并且只能定期摄取数据(例如,每天晚上)。大多数公司都处于第二阶段,特别是如果它们的基础设施仍然在本地。

第三阶段:预测性

到了第三阶段,公司已经转向了云端,并建立了一个能够处理更大量、不同类型和更频繁摄取数据(每小时或流式)的系统。他们还通过整合机器学习(高级分析)来实时做出决策,改进了他们的决策能力。例如,在用户浏览在线书店时,系统可能会根据用户以前的购买情况,在结账页面上推荐额外的书籍。

第四阶段:变革性

最后,在第四阶段,公司建立了一个能够处理任何大小、速度或类型的数据的解决方案。由于架构可以处理并且基础设施容量足以支持,因此很容易启用新数据,缩短了上线时间。这是一个让非技术终端用户可以轻松使用其选择的工具创建报告和仪表板的解决方案。

本书重点关注第三和第四阶段。特别是当终端用户进行自主报告时,这种活动被称为自助商业智能,这是下一节的主题。

自助式商业智能

多年来,如果组织内的终端用户需要报告或仪表板,他们必须收集所有需求(所需的源数据,以及报告或仪表板应该是什么样子的描述),填写IT请求表格,然后等待。然后,IT部门构建报告,这涉及提取数据,将其加载到数据仓库中,构建数据模型,最后创建报告或仪表板。终端用户会审查它,然后批准或请求更改。这通常导致IT请求的长队列,因此IT最终成为一个巨大的瓶颈。终端用户需要花费几天、几周,甚至几个月才能从数据中获取价值。这个过程现在被称为"传统BI",因为近年来出现了更好的东西:自助商业智能。

您构建的任何数据架构解决方案的目标都应该是使任何终端用户都能快速轻松地查询数据并创建报告和仪表板,无论他们的技术技能如何。他们不应该让IT参与执行任何这些任务,他们应该能够自己完成所有任务。

这个目标需要更多的前期工作;IT部门将不得不联系所有终端用户,了解他们需要哪些数据,然后根据他们的需求构建数据架构。但是,对于报告的创建而言,节省的时间是非常值得的。这种方法消除了队列和与IT之间来回的交流,IT团队成员通常对数据了解甚少。相反,最了解数据的终端用户直接访问数据,准备数据,构建数据模型,创建报告,并验证报告的正确性。这种工作流程更加高效。

创建易于消费的数据解决方案会导致自助商业智能。创建报告应该就像在工作空间中拖动字段一样简单。终端用户不应该了解如何从不同的表中联结数据,也不必担心报告运行太慢。当您创建数据解决方案时,始终要问:人们建立自己的报告有多容易?

总结

在本章中,您了解了大数据是什么,以及它如何帮助您和您的组织做出更好的业务决策,特别是与机器学习相结合时。您了解了如何使用六个V描述大数据,并学习了数据成熟度的含义以及如何识别其阶段。最后,您了解了传统BI和自助商业智能之间的区别,其中的目标是让每个人都能够使用数据快速轻松地创建报告并识别见解。

现在让我给您一个对接下来章节的展望。在第二章中,我将介绍什么是数据架构,并提供多年来数据架构类型如何变化的概览。第三章是我向您展示如何进行架构设计会议,以帮助确定最佳数据架构的章节。

第二部分,"常见数据架构概念",更详细地介绍了各种架构。在第四章中,我将介绍数据仓库是什么,它不是什么,以及为什么要使用它。我将讨论"自上而下的方法",询问关系型数据仓库是否已经过时,并介绍填充数据仓库的方法。第五章描述了数据湖是什么,以及为什么要使用它。它还讨论了自下而上的方法,然后深入探讨了数据湖的设计以及何时使用多个数据湖。

第六章涵盖了与数据存储相关的常见数据架构概念,包括数据集市、运营数据存储、主数据管理和数据虚拟化。第七章涵盖了与设计相关的常见数据架构概念,包括OLTP与OLAP、运营与分析数据、SMP与MPP、Lambda架构、Kappa架构和多语言持久性。第八章是关于数据建模的,包括关系和维度建模、Kimball与Inmon辩论、通用数据模型和数据保险库。在第九章中,您将阅读关于数据摄入的内容,包括ELT与ELT、反向ELT、批处理与实时处理以及数据治理。

第三部分专注于特定的数据架构。第十章描述了现代数据仓库及其构建的五个阶段。第十一章涵盖了数据织物架构及其用例。第十二章介绍了数据湖仓库架构以及不使用关系型数据仓库的权衡。

第十三章和第十四章都是关于数据网格架构的------有很多要谈论的!第十三章聚焦于数据网格的分散方法和数据网格的四个原则,描述了数据域和数据产品是什么。第十四章涉及构建数据网格的关注点和挑战,并解决了数据网格的一些常见误解。它将帮助您检查您是否准备好采用数据网格。最后,它描述了数据网格的未来可能会是什么样子。

第十五章探讨了项目成功与失败的原因,并描述了构建数据架构所需的团队组织。最后,第十六章讨论了开源、云计算的好处、主要云服务提供商、多云环境以及软件框架。

现在我即将颠覆您的数据世界。您准备好了吗?

相关推荐
Data-Miner4 分钟前
196页满分PPT | 集团流程优化及IT规划项目案例
大数据·数据分析
徐*红7 分钟前
Elasticsearch 8.+ 版本查询方式
大数据·elasticsearch
DolphinScheduler社区19 分钟前
怎么办?用DolphinScheduler调度执行复杂的HiveSQL时无法正确识别符号
大数据
goTsHgo21 分钟前
Hive自定义函数——简单使用
大数据·hive·hadoop
码爸24 分钟前
flink 例子(scala)
大数据·elasticsearch·flink·scala
FLGB24 分钟前
Flink 与 Kubernetes (K8s)、YARN 和 Mesos集成对比
大数据·flink·kubernetes
码爸26 分钟前
flink 批量压缩redis集群 sink
大数据·redis·flink
core51226 分钟前
Flink官方文档
大数据·flink·文档·官方
周全全29 分钟前
Flink1.18.1 Standalone模式集群搭建
大数据·flink·集群·主从·standalone
Hello.Reader32 分钟前
StarRocks实时分析数据库的基础与应用
大数据·数据库