现代数据工程:从 ETL 到 ELT 的架构演进
一、数据工程黄金时代
无论模型多先进,训练和推理都需要高质量数据支撑。数据工程正在经历从 ETL 到 ELT 的深刻变革。
二、ETL vs ELT
传统 ETL:Extract → Transform → Load,Schema 预定义,变更成本高。
现代 ELT:Extract → Load → Transform,原始数据留存,按需转换,灵活可追溯。
三、现代数据栈
| 层级 | 工具 |
|---|---|
| 集成 | Airbyte / Debezium |
| 数据湖 | S3 / MinIO |
| 数据仓库 | Snowflake / ClickHouse |
| 转换 | dbt |
| 编排 | Airflow / Dagster |
| BI | Metabase / Superset |
四、dbt 实战
sql
{{ config(materialized='table') }}
SELECT user_id, COUNT(order_id) as order_count
FROM {{ ref('stg_orders') }}
GROUP BY user_id
五、批流一体化
Lambda 架构正被 Kappa 架构取代。Kafka + Flink 是流处理标准组合。
六、数据质量
Great Expectations 做质量测试,dbt test 做完整性检查,Data Contracts 定义 SLA。
七、趋势
Data Mesh 去中心化、Data Lakehouse 合二为一、AI 自动生成数据管道。
本文为个人学习整理,欢迎交流讨论。