一,引言
在本文中,我们将继续了解什么是 Azure Data Factory,Azure Data Factory 的工作原理,Azure Data Factory 数据工程中的数据管道,并了解继承运行时 ----- IR。
--------------------我是分割线--------------------
1,Azure Data Factory(一)入门简介
2,Azure Data Factory(二)复制数据
3,Azure Data Factory(三)集成 Azure Devops 实现CI/CD
4,Azure Data Factory(四)集成 Logic App 的邮件通知提醒
5,Azure Data Factory(五)Blob Storage 密钥管理问题
6,Azure Data Factory(六)数据集类型为Dataverse的Link测试
7,Azure Data Factory(七)数据集验证之用户托管凭证
8,Azure Data Factory(八)数据集验证之服务主体(Service Principal)
9,Azure Data Factory(九)基础知识回顾
二,正文
1,什么是 Azure Data Factory ?
Azure Data Factory 是一种基于云的数据继承服务,允许组织城建,计划和编排数据管道。Azure Data Factory 提供了可视化界面或基于代码的方式来集成来自各种来源的数据,对其进行转化和处理,然后再将其加载到数据目标存储中。
Azure Data Factory 支持广泛的数据源,包括本地和基于云上的数据源,例如 Sql Server,Azure Blob,Dataverse 等等,它还提供数据移动,数据转化,监控和管理等功能,使其成为数据集成的综合解决方案。
2,ADF 的工作原理是什么?
Azure 数据工厂 (ADF) 通过提供可视化界面或基于代码的方法来定义、计划和执行数据管道。这些管道可用于执行各种任务,包括数据移动和转换。
以下是 ADF 工作原理所涉及的步骤:
- 创建数据工厂:第一步是在 Azure 中创建数据工厂。这可以在 Azure 门户中或使用 Azure CLI 完成。
- 定义数据源和目标:创建数据工厂后,您需要定义要在管道中使用的数据源和目标。数据源可以是本地的或基于云的,目标可以是 Azure Data Lake Storage、Azure Blob 存储或 Azure SQL 数据库。
- 创建管道:管道是 ADF 的构建块。它们定义了移动和转换数据所需的步骤。可以在 ADF 可视化界面中或使用 Azure 数据工厂 SDK 创建管道。
- 计划管道:可以安排管道定期运行或按需运行。这允许您自动执行数据管道。
- 监视管道:ADF 提供监视功能,以便您可以监视管道的状态、查看日志并管理已处理的数据。
ADF 是一个功能强大的工具,可以帮助您为各种数据集成场景构建、调度和编排数据管道。对于需要的各种规模的组织来说,这是一个不错的选择到集成来自各种来源的数据并将其加载到各种目标中。
这里有一些额外的细节关于 ADF 的工作原理:
- 数据连接器:ADF 支持各种数据连接器,包括本地数据源和基于云的数据源。这使得您可以轻松地将来自各种来源的数据集成到数据管道中。
- 数据转换:ADF 提供各种数据转换活动,例如复制数据、转换数据和运行脚本。这可以让你到根据以下内容操纵和塑造您的数据到您的需求。
- 调度和监控:ADF 提供调度和监控功能,因此您可以自动执行数据管道并监控数据的状态。这有助于您确保数据管道按预期运行并且数据始终是最新的。
- 集成运行时:ADF 提供集成运行时,负责执行管道中的活动。集成运行时分为三种类型:Azure IR、自托管 IR 和 Azure-SSIS IR。这使您可以根据您的特定需求选择正确的集成运行时。
- 安全功能:ADF 提供多种安全功能到保护您的数据,例如数据加密和访问控制。这可以帮助您确保您的数据安全并且只能访问到授权用户。
3,Azure 数据工厂中的数据管道
ADF 中的管道是数据集成的构建块,使您能够到自动执行复杂的任务,例如数据移动、转换和决策。管道由一项或多项活动组成,它们是 ADF 中的基本工作单元。有多种类型的活动可供选择,每种活动都经过精心设计到执行特定任务。
1)数据移动:
使用复制数据活动到从一个移动数据地点 到其他。此活动支持广泛的数据源和目标,包括本地数据源和基于云的数据源。通过复制数据活动,您可以执行从源数据存储复制数据等操作到目标数据存储或从其中复制数据地点 到数据存储中的另一个。
2)数据转换:
ADF 提供了多种转型活动,使您能够到操纵和塑造您的数据。例如,您可以使用派生列活动到基于表达式、Lookup 活动创建新列到从另一个数据源检索数据,以及聚合活动到汇总数据。ADF 还支持使用 Azure Databricks 或 Azure Functions 进行基于代码的转换,为您提供灵活性到创建量身定制的自定义转换到您的具体需求。
1,控制流:
管道可以包括控制流活动,使您能够到根据条件执行操作。例如,您可以使用 If Condition 活动到根据表达式的结果或 For Each 活动执行不同的活动到对集合中的每个项目执行相同的一组活动。这些活动可以让你到创建可以适应的复杂工作流程到改变数据和条件。
2,依赖关系:
管道可以包括依赖关系活动之间,它决定活动执行的顺序。例如,您可以指定一个活动只能在另一个活动完成后启动,或者多个活动应并行运行。这些依赖关系让你到创建高效的工作流程,最大限度地减少延迟并最大限度地提高资源利用率。
3,监控和管理:
ADF 提供强大的监控和管理功能,使您能够到监视管道的状态、查看日志并管理已处理的数据。您可以在 ADF 可视化界面中查看管道、活动和数据集的状态,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。这可以让你到快速识别任何问题或瓶颈并采取纠正措施到确保您的数据集成工作流程顺利运行。
4,了解集成运行时 (IR)
集成运行时 (IR) 是 Azure 数据工厂 (ADF) 的基本组件,可帮助您到轻松执行和管理数据集成工作流程。IR 提供了一个安全、可扩展且受管理的环境,用于运行管道中指定的活动,例如数据移动和转换任务。
让我们更深入地研究 Integration Runtime 在 ADF 中的作用:
目的: IR 的主要目标是到为执行数据集成活动提供安全、托管且可扩展的环境。通过抽象基础设施和网络复杂性,IR 使您能够到只专注于构建数据集成逻辑,而不用担心底层细节.
类型:它负责执行管道中的活动。IR 分为三种类型:
- Azure IR:此 IR 用于基于云的数据源和目标之间的数据集成。
- 自托管 IR:此 IR 用于本地和基于云的数据源和目标之间的数据集成。
- Azure-SSIS IR:此 IR 用于需要托管环境来执行 SQL Server Integration Services (SSIS) 包的数据集成方案。
安全性:IR 非常重视安全性,自动处理网络安全和数据加密问题。此外,IR 支持 Azure Active Directory (AAD) 身份验证,使您能够到使用 AAD 凭据安全地访问数据源和目标。
可扩展性:IR设计到应对可扩展性挑战,自动调整基础设施和网络资源到满足您的数据集成任务的需求。例如,IR 可以在峰值负载期间自动增加集群中的节点数量,并在负载下降时自动减少节点数量。
监控:IR提供实时监控和管理功能,使您到跟踪数据集成操作的性能和状态。您可以通过 ADF 可视化界面监视 IR、管道和活动,或使用 Azure 数据工厂 REST API 以编程方式检索状态信息。
总之,集成运行时是 Azure 数据工厂不可或缺的组件,为执行数据集成工作流提供安全、可扩展和托管的环境。借助 IR,您可以灵活、可扩展地执行数据集成操作,让工作变得更加轻松到满足您的数据集成场景的需求。
三,结尾
今天我们继续介绍了 Azure Data Factory 的概念知识,集合前几期实践内容,能更好的了解 Azure Data Factory 常见的组件,更清晰的了解我们可以使用 Azure Data Factory 为我们的项目做哪些贡献了。
参考链接:Azure 数据工厂
作者:Allen
版权:转载请在文章明显位置注明作者及出处。如发现错误,欢迎批评指正。