Microsoft Fabric - 尝试一下使用Shortcut Transformation进行数据同步

1. 简单介绍

在Microsoft Fabric中,我们可以使用shortcut去创建一个到外部数据源的引用,这样就不需要把外部数据源的数据物理拷贝到Microsoft Fabric中了,增强了Microsoft Fabric对数据源的访问能力,同时减少了重复数据的产生。

2025年微软增加了一个shortcut transformation的特性,简化了将csv文件转换为delta table的流程,同时保证对csv数据源的变更(增加,删除,更改)能一直同步到目标delta tables中。按照微软老师的说法,后面还会在shortcut transofrmations中引入AI的能力,比如Sentiment, Text Summary, Translate, PII detection(敏感信息简称,处理后的效果有点类似Data Masking)。

这边将尝试一下Microsoft Fabric的新特性shortcut transformation

2.具体说明

2.1 创建lakehouse

  1. 当前数据源是csv文件,分成亚洲,欧洲,美洲和其他洲的数据

下面是csv中存放的数据

  1. 假定已经创建了一个lakehouse用来存储2024年巴黎奥运会的奖牌数据,如下图所示,
  1. 同时已经在lakehouse中导入了美洲的奥运数据,

后面将利用shortcut transformation技术,将csv的数据源同步到lakehouse delta table中

2.2 创建Shortcut

  1. 点击lakehouse中的Tables文件夹右侧的...,在下拉菜单中点击New shortcut选项,

2)在New shortcut窗口中,选择 Microsoft OneLake,然后点击窗口下面的Next按钮,

  1. 在Select a data source type窗口中,选择创建好的lakehouse
  1. 在新窗口中,选择lakehouse Files文件夹下面的olympics2024子文件夹(上传的数据存放在这个子文件夹中),然后点击Next按钮

5)在新窗口中,点击Next按钮

  1. 确认New shortcut中的信息,点击Create进行shortcut创建,
  1. 最后在lakehouse中生成了一个新的delta table(olympics2024)

查看一下delta table中的奥运数据总数是18,

2.3 测试数据同步

2.3.1 增加数据的同步
  1. 向lakehouse的olympics2024子文件夹中上传欧洲部分的奥运会数据,
  1. 点击lakehouse delta table 右侧的...,然后点击Refresh按钮,

3)发现delta table的数据总数变成了47,表示新增的csv数据已经被同步到delta table了。

同时delta table中也增加了欧洲部分对应的parquet文件,如下图所示,

  1. 继续向lakehouse中添加亚洲部分的奥运会数据csv数据
  1. 这次不要点击delta table的Refresh按钮,等待2分钟时间,然后查看delta table(olympics2024)中的数据,发现亚洲部分的数据也自动增加到delta table中了,数据总数变成了75

Shortcut transformation engine会监测数据源的变化,每2分钟同步一次数据,这样就不需要自己去配置定时刷新的作业了,保证delta table和数据源的数据一直是同步的状态。

note, 以上结果表示配置了Shortcut transformation之后,新增的数据是可以同步成功的。

2.3.2 删除数据的同步

1)在lakehouse中删除亚洲部分的奥运会数据

2)刷新delta table(olympics2024)或者等待一些时间(超过2分钟),发现delta table(olympics2024)中的数据总数变回了47

note, 以上结果表示配置了Shortcut transformation之后,删除的数据是同步成功的,

2.3.3 变更数据的同步
  1. 在lakehouse中,变更csv中的源数据如下, 点击Save按钮

2)等待一些时间(超过2分钟)或者点击Delta table(olympics2024)的Refresh按钮,会发现delta table中的数据也进行了变更了。

也可以使用SQL语句进行一下查询, 如下图所示,

note, 以上结果表示配置了Shortcut transformation之后,变更的数据是可以同步的,

3.总结

本文简单记录了一下Microsoft Fabric中新特性Shortcut Transformaion的使用过程。后续还需继续跟着微软老师学习一下。

本文如果哪里有错误,麻烦告之,谢谢谢谢!

相关推荐
小黄人软件18 小时前
Claude和Codex下载离线包 安装遇到问题:windows无法访问指定设备 路径 文件 应用无法打开也无法卸载,解决了
人工智能·microsoft·openai·codex
gis分享者18 小时前
Claude Code 接入蓝耘 GLM-5.1:终端 AI 编程助手配置实战
人工智能·ai·实战·claude·cc·接入glm
东方隐侠安全团队-千里18 小时前
币安Skills Hub:散户的“机构级超能力“来了
安全·ai·区块链·skills
企业智能研究19 小时前
企微智能客服赋能私域运营:从流量沉淀到高效转化的完整路径
人工智能·ai·agent·智能客服·私域运营
Sharewinfo_BJ19 小时前
当 BI 遇上 AI:到底是谁在帮谁?
大数据·人工智能·ai·数据分析·微软·powerbi
装不满的克莱因瓶19 小时前
自然语言处理常见任务——从文本理解到生成式AI的完整任务体系
人工智能·pytorch·python·深度学习·ai·自然语言处理
举个栗子。19 小时前
AI智能体教程合集
ai
xin_yao_xin19 小时前
Claude Code 安装与 DeepSeek-V4 模型配置(2026 最新)
人工智能·ai·大模型·deepseek·claude code
炎武丶航19 小时前
LeNet-5深度学习详解:从手写数字识别到代码实战
人工智能·python·深度学习·机器学习·ai·cnn·lenet
曦尧20 小时前
GitHub - addyosmani/agent-skills:面向 AI 编程智能体的生产级工程技能 · GitHub
ai·自动化