【Azure 架构师学习笔记】- Azure Databricks (18) --Delta Live Table 架构

本文属于【Azure 架构师学习笔记】系列

本文属于【Azure Databricks】系列。

接上文 【Azure 架构师学习笔记】- Azure Databricks (17) --Delta Live Table和Delta Table

Databrics DLT 是一个ETL 框架,通过创建pipeline来简化开发难度,本文介绍两种DLT 与ADB搭配的架构。

假设一个企业有一个销售系统,并且有两个独立的销售平台A, B,意味着客户信息可能是不一样的。 销售系统需要把A, B 的客户信息合并并为后期数据分析做准备。

  • 在Bronze层, 数据集成系统会把所有源数据分别存储起来。
  • 在Silver 层, 则合并A和B的数据到一个同一视图。
  • 在Gold层,通常情况下就会汇总信息到一个dashboard,然后对销售情况进行分析。

架构1

在Bronze zone中, 每个数据源都有多个表,并且配置了自己的DLT pipeline。 在Silever Zone, 通过Merge 操作,把数据逻辑和历史数据进行合并。

在这里,由于Bronze zone通过不同的DLT pipeline把数据隔离,使得数据流的跟踪更加方便。同时由于不同数据有不同的处理需求比如刷新间隔,隔离开来可以避免全部数据进行刷新。

但是由于两个DLT pipeline不能直接写入同一个表DLT Limitations,这在某些情况下会增加复杂度。

架构2

在这个改进架构中的bronze zone,与前面的没有区别。但是在Silver zone中,有了自己的DLT pipeline。通过把默认的两级架构live.table变成3级架构catalog.schema.table的方式来消除前面提到的不能同时更新同一个表的限制。

同时通过在silver上使用DLT,使得其也就有了监控, 数据血缘,数据质量控制等特性。

另外在这个改进架构中, silver的表也被配置成同时更新。

相关推荐
Leinwin3 天前
Azure语音服务(国际版)系列升级,解锁语音交互新体验
microsoft·azure
安得权3 天前
Azure Dataverse 权限设计学习
学习·flask·azure
EllenShen1234 天前
如何利用ADF(Azure Data Factory)完成CDP任务流
azure
EllenShen1235 天前
服务器检测databricks job的运行状态封装
运维·azure
安得权10 天前
Azure DevOps 学习概况总结
学习·azure·devops
Azure DevOps15 天前
Azure DevOps Server 正式版本发布
运维·microsoft·azure·devops
Channing Lewis17 天前
vault分生产和dev吗?也就是说是否支持在一个azure app中创建vault,但是分为生产和dev,而不是为生产和dev分别创建一个app
microsoft·azure
切糕师学AI20 天前
Azure RTOS ThreadX 简介
microsoft·嵌入式·azure·rtos
开开心心_Every1 个月前
Word转PDF工具,免费生成图片型文档
网络·笔记·pdf·word·powerpoint·excel·azure
Leinwin1 个月前
Azure NCv6 现已开放公共预览
microsoft·azure