数据仓库与ETL

什么是数据仓库

一种用于存储和管理数据的系统,提供一种统一方式,将不同来源、不同方式、不同时间的数据集成在一起。

数据仓库结构

主题域:一个特定领域的数据集,比如营销、销售、客户、库存等。

维度:定义数据的不同角度,时间、地点等。

事实表:存储实际数据,销售额、库存量等。

四个特点:

面向主题:数据仓库面向企业或组织主要的主题,不同于传统的数据库系统,数据仓库将企业不同的业务系统、数据来源整合到一起,使得用户可以集中处理特定主题的问题。

集成的:数据仓库与企业内部或外部的多个源系统整合,把这些单个的数据源整合到一起形成一张完整的数据库,使得企业数据变得完整、方便分析。

非易失的(稳定的、不可更新):数据仓库中的数据被认为是"非易失的"即一旦存储在仓库中就不会丢失。数据仓库需要保留历史数据以便分析,同时为了保证数据持久性,数据仓库采用了数据备份和恢复机制。

面向分析(反映历史变化、时间特性):数据仓库主要用于支持企业的决策分析过程。数据仓库的数据表结构、字段、视图等信息都是被设计为方便用户进行数据分析、交互、制图和报表的。同时,数据仓库采用了 OLAP 技术,使得用户可以进行复杂的多维数据分析,以及在线分析处理等操作。

主机不变

ETL过程

抽取数据:不同数据源抽取数据

转换:清洗、格式化、转换

加载:加载到数据仓库、分析和报表操作

全量加载

增量加载

相关推荐
得物技术8 小时前
从“人治”到“机治”:得物离线数仓发布流水线质量门禁实践
大数据·数据仓库
Aloudata10 小时前
数据工程实践:智能制造企业如何通过NoETL指标平台为数据资产“瘦身”,实现TCO最优?
sql·数据分析·etl·指标平台
沃达德软件12 小时前
重点人员动态管控系统解析
数据仓库·人工智能·hive·hadoop·redis·hbase
xianyinsuifeng12 小时前
RAG + Code Analysis 的标准路线
数据仓库·自动化·云计算·原型模式·aws
2501_9272835815 小时前
仓库升级进行时:当传统仓储遇到“四向穿梭车”
数据仓库·人工智能·自动化·wms·制造
Gain_chance16 小时前
26-学习笔记尚硅谷数仓搭建-DIM层特殊的维度表——用户维度表的建表、分析及DIM层数据装载脚本
数据仓库·hive·笔记·学习
让我上个超影吧17 小时前
【SpringAI】RAG工作流程与ETL实战解析
java·spring boot·ai·etl
Gain_chance2 天前
25-学习笔记尚硅谷数仓搭建-DIM层其余(优惠卷、活动、地区、营销坑位、营销渠道、日期)维度表建表语句、简单分析
数据仓库·笔记·学习
Aloudata2 天前
数据工程新范式:NoETL 语义编织如何激活海量埋点数据价值?
数据挖掘·数据分析·etl·指标平台
Aloudata3 天前
数据工程新范式:NoETL 统一语义层破解跨境电商 ROI 统筹与数据孤岛难题
数据分析·etl·指标平台·数据编织