ETL 学习

【Draft】本文未完成

概念篇

一套数据库系统,做好 ETL Pipeline,大框架上有这几个模块需要关注:

  1. Data Ingestion
  2. Data Transformation
  3. Orchestration

Ingestion 涉及到感知提取外部数据。可以和第三方工具配合。

Transformation 涉及到将数据做什么变换。

Orchestration 则涉及到全流程的管理,是协调和自动化数据管道中各个步骤的过程,要确保每个步骤在正确的时间、正确的顺序和正确的条件下运行。可以基于第三方数据平台实现,如 AirFlow。

工具篇

整个Pipeline的处理,有 NiFi 这类平台性质的工具,它具备非常丰富的数据 Pipeline 处理能力,是一种可视化拖拽数据流编排,低代码 ETL 管道工具。

对一个企业来说,ETL 并不一定需要在 OLAP 数据库中完成,它可以在外部平台实现。但是,如果 OLAP 数据库能力足够,使用数据库完成 ETL 会更加简单可靠。

举个类比(便于理解)

• NiFi 就像一条聪明的"物流输送线",把数据从一个地方搬到另一个地方,同时支持中途清洗、拆包、改名、筛选。

• Flink 像一台实时工厂机器,专门对数据"加工计算、复杂聚合、联动分析"。

• Kafka Streams 像一个"迷你计算器",嵌在你写的 Java 服务里快速做点轻量处理。

• Spark 像一个强大的"大数据分析工厂",适合集中计算历史数据与批处理任务。

相关推荐
DKPT7 分钟前
ZGC和G1收集器相比哪个更好?
java·jvm·笔记·学习·spring
Main. 241 小时前
从0到1学习Qt -- 常见控件之显示类控件
qt·学习
e***19351 小时前
爬虫学习 01 Web Scraper的使用
前端·爬虫·学习
二川bro5 小时前
多模态AI开发:Python实现跨模态学习
人工智能·python·学习
石像鬼₧魂石5 小时前
Netcat,网络瑞士军刀(新手学习备用)
学习
todoitbo6 小时前
基于 DevUI MateChat 搭建前端编程学习智能助手:从痛点到解决方案
前端·学习·ai·状态模式·devui·matechat
Ma0407139 小时前
【机器学习】监督学习、无监督学习、半监督学习、自监督学习、弱监督学习、强化学习
人工智能·学习·机器学习
小熊officer9 小时前
Nginx学习
运维·学习·nginx
秋邱9 小时前
价值升维!公益赋能 + 绿色技术 + 终身学习,构建可持续教育 AI 生态
网络·数据库·人工智能·redis·python·学习·docker
Three~stone9 小时前
Matlab2025b的安装教程(附安装包和密钥破解文件)
学习·mysql·持续部署