【Azure 架构师学习笔记】- Azure Databricks (18) --Delta Live Table 架构

本文属于【Azure 架构师学习笔记】系列

本文属于【Azure Databricks】系列。

接上文 【Azure 架构师学习笔记】- Azure Databricks (17) --Delta Live Table和Delta Table

Databrics DLT 是一个ETL 框架,通过创建pipeline来简化开发难度,本文介绍两种DLT 与ADB搭配的架构。

假设一个企业有一个销售系统,并且有两个独立的销售平台A, B,意味着客户信息可能是不一样的。 销售系统需要把A, B 的客户信息合并并为后期数据分析做准备。

  • 在Bronze层, 数据集成系统会把所有源数据分别存储起来。
  • 在Silver 层, 则合并A和B的数据到一个同一视图。
  • 在Gold层,通常情况下就会汇总信息到一个dashboard,然后对销售情况进行分析。

架构1

在Bronze zone中, 每个数据源都有多个表,并且配置了自己的DLT pipeline。 在Silever Zone, 通过Merge 操作,把数据逻辑和历史数据进行合并。

在这里,由于Bronze zone通过不同的DLT pipeline把数据隔离,使得数据流的跟踪更加方便。同时由于不同数据有不同的处理需求比如刷新间隔,隔离开来可以避免全部数据进行刷新。

但是由于两个DLT pipeline不能直接写入同一个表DLT Limitations,这在某些情况下会增加复杂度。

架构2

在这个改进架构中的bronze zone,与前面的没有区别。但是在Silver zone中,有了自己的DLT pipeline。通过把默认的两级架构live.table变成3级架构catalog.schema.table的方式来消除前面提到的不能同时更新同一个表的限制。

同时通过在silver上使用DLT,使得其也就有了监控, 数据血缘,数据质量控制等特性。

另外在这个改进架构中, silver的表也被配置成同时更新。

相关推荐
编码者卢布20 小时前
【Azure Developer】IIS w3wp.exe 的 -m 参数:一个未被记录的管道模式标识
microsoft·flask·azure
编码者卢布2 天前
【Azure App Service】PHP页面上传文件413错误的解决方案
microsoft·php·azure
weixin_307779137 天前
使用COPY INTO从S3导入CSV文件到Azure Synapse Dedicated SQL Pool表的问题分析与自动化验证方案
sql·自动化·azure
diablobaal8 天前
云计算学习100天-第102天-Azure入门4
学习·云计算·azure
Elastic 中国社区官方博客8 天前
将 Logstash 管道从 Azure Event Hubs 迁移到 Kafka 输入插件
大数据·数据库·elasticsearch·microsoft·搜索引擎·kafka·azure
海兰8 天前
Logstash 从 Azure Event Hubs 插件迁移至 Kafka 插件完整实战指南
kafka·linq·azure
Ashmcracker9 天前
告别手写 Inventory:Terraform 与 Ansible 在 Azure 上的联动,动态清单自动接管云主机
ansible·azure·terraform
Ashmcracker10 天前
Codex Desktop如何接入Azure OpenAI?AI Foundry部署GPT‑5.3‑codex 实操
人工智能·gpt·microsoft·azure
Ashmcracker10 天前
Azure Key Vault 证书如何在 AKS 中同步为 Kubernetes Secret?附权限配置与 YAML 示例
kubernetes·flask·azure
左手厨刀右手茼蒿13 天前
Flutter 三方库 flutter_azure_tts 深度链接鸿蒙全场景智慧语音中枢适配实录:强势加载云端高拟真情感发音合成系统实现零延迟超自然多端协同-适配鸿蒙 HarmonyOS ohos
flutter·harmonyos·azure