ETL 学习

【Draft】本文未完成

概念篇

一套数据库系统,做好 ETL Pipeline,大框架上有这几个模块需要关注:

  1. Data Ingestion
  2. Data Transformation
  3. Orchestration

Ingestion 涉及到感知提取外部数据。可以和第三方工具配合。

Transformation 涉及到将数据做什么变换。

Orchestration 则涉及到全流程的管理,是协调和自动化数据管道中各个步骤的过程,要确保每个步骤在正确的时间、正确的顺序和正确的条件下运行。可以基于第三方数据平台实现,如 AirFlow。

工具篇

整个Pipeline的处理,有 NiFi 这类平台性质的工具,它具备非常丰富的数据 Pipeline 处理能力,是一种可视化拖拽数据流编排,低代码 ETL 管道工具。

对一个企业来说,ETL 并不一定需要在 OLAP 数据库中完成,它可以在外部平台实现。但是,如果 OLAP 数据库能力足够,使用数据库完成 ETL 会更加简单可靠。

举个类比(便于理解)

• NiFi 就像一条聪明的"物流输送线",把数据从一个地方搬到另一个地方,同时支持中途清洗、拆包、改名、筛选。

• Flink 像一台实时工厂机器,专门对数据"加工计算、复杂聚合、联动分析"。

• Kafka Streams 像一个"迷你计算器",嵌在你写的 Java 服务里快速做点轻量处理。

• Spark 像一个强大的"大数据分析工厂",适合集中计算历史数据与批处理任务。

相关推荐
自强的小白14 分钟前
vlan(局部虚拟网)
网络·学习
一只乔哇噻27 分钟前
java后端工程师进修ing(研一版 || day41)
java·开发语言·学习·算法
知识分享小能手41 分钟前
React学习教程,从入门到精通,React 使用属性(Props)创建组件语法知识点与案例详解(15)
前端·javascript·vue.js·学习·react.js·前端框架·vue
知识分享小能手7 小时前
React学习教程,从入门到精通, React 属性(Props)语法知识点与案例详解(14)
前端·javascript·vue.js·学习·react.js·vue·react
茯苓gao10 小时前
STM32G4 速度环开环,电流环闭环 IF模式建模
笔记·stm32·单片机·嵌入式硬件·学习
是誰萆微了承諾10 小时前
【golang学习笔记 gin 】1.2 redis 的使用
笔记·学习·golang
DKPT10 小时前
Java内存区域与内存溢出
java·开发语言·jvm·笔记·学习
aaaweiaaaaaa11 小时前
HTML和CSS学习
前端·css·学习·html
看海天一色听风起雨落12 小时前
Python学习之装饰器
开发语言·python·学习
speop13 小时前
llm的一点学习笔记
笔记·学习