ETL 学习

【Draft】本文未完成

概念篇

一套数据库系统,做好 ETL Pipeline,大框架上有这几个模块需要关注:

  1. Data Ingestion
  2. Data Transformation
  3. Orchestration

Ingestion 涉及到感知提取外部数据。可以和第三方工具配合。

Transformation 涉及到将数据做什么变换。

Orchestration 则涉及到全流程的管理,是协调和自动化数据管道中各个步骤的过程,要确保每个步骤在正确的时间、正确的顺序和正确的条件下运行。可以基于第三方数据平台实现,如 AirFlow。

工具篇

整个Pipeline的处理,有 NiFi 这类平台性质的工具,它具备非常丰富的数据 Pipeline 处理能力,是一种可视化拖拽数据流编排,低代码 ETL 管道工具。

对一个企业来说,ETL 并不一定需要在 OLAP 数据库中完成,它可以在外部平台实现。但是,如果 OLAP 数据库能力足够,使用数据库完成 ETL 会更加简单可靠。

举个类比(便于理解)

• NiFi 就像一条聪明的"物流输送线",把数据从一个地方搬到另一个地方,同时支持中途清洗、拆包、改名、筛选。

• Flink 像一台实时工厂机器,专门对数据"加工计算、复杂聚合、联动分析"。

• Kafka Streams 像一个"迷你计算器",嵌在你写的 Java 服务里快速做点轻量处理。

• Spark 像一个强大的"大数据分析工厂",适合集中计算历史数据与批处理任务。

相关推荐
PerfumerKarma3 分钟前
【WebGPU学习杂记】数学基础拾遗(2)变换矩阵中的齐次坐标推导与几何理解
学习·线性代数·矩阵
knight_202415 分钟前
嵌入式学习日志————对射式红外传感器计次
stm32·单片机·嵌入式硬件·学习
go546315846540 分钟前
基于分组规则的Excel数据分组优化系统设计与实现
人工智能·学习·生成对抗网络·数学建模·语音识别
●VON1 小时前
重生之我在暑假学习微服务第二天《MybatisPlus-下篇》
java·学习·微服务·架构·mybatis-plus
Yu_Lijing1 小时前
MySQL进阶学习与初阶复习第四天
数据库·学习·mysql
好学且牛逼的马2 小时前
学习随笔录
学习
我爱学嵌入式3 小时前
C语言第 9 天学习笔记:数组(二维数组与字符数组)
c语言·笔记·学习
im_AMBER7 小时前
学习日志19 python
python·学习
_Kayo_11 小时前
VUE2 学习笔记6 vue数据监测原理
vue.js·笔记·学习
chenchihwen11 小时前
大模型应用班-第2课 DeepSeek使用与提示词工程课程重点 学习ollama 安装 用deepseek-r1:1.5b 分析PDF 内容
人工智能·学习