数据仓库与ETL

什么是数据仓库

一种用于存储和管理数据的系统,提供一种统一方式,将不同来源、不同方式、不同时间的数据集成在一起。

数据仓库结构

主题域:一个特定领域的数据集,比如营销、销售、客户、库存等。

维度:定义数据的不同角度,时间、地点等。

事实表:存储实际数据,销售额、库存量等。

四个特点:

面向主题:数据仓库面向企业或组织主要的主题,不同于传统的数据库系统,数据仓库将企业不同的业务系统、数据来源整合到一起,使得用户可以集中处理特定主题的问题。

集成的:数据仓库与企业内部或外部的多个源系统整合,把这些单个的数据源整合到一起形成一张完整的数据库,使得企业数据变得完整、方便分析。

非易失的(稳定的、不可更新):数据仓库中的数据被认为是"非易失的"即一旦存储在仓库中就不会丢失。数据仓库需要保留历史数据以便分析,同时为了保证数据持久性,数据仓库采用了数据备份和恢复机制。

面向分析(反映历史变化、时间特性):数据仓库主要用于支持企业的决策分析过程。数据仓库的数据表结构、字段、视图等信息都是被设计为方便用户进行数据分析、交互、制图和报表的。同时,数据仓库采用了 OLAP 技术,使得用户可以进行复杂的多维数据分析,以及在线分析处理等操作。

主机不变

ETL过程

抽取数据:不同数据源抽取数据

转换:清洗、格式化、转换

加载:加载到数据仓库、分析和报表操作

全量加载

增量加载

相关推荐
BD_Marathon18 小时前
设置hive本地模式
数据仓库·hive·hadoop
Data 31718 小时前
Hive数仓操作(十一)
大数据·数据库·数据仓库·hive·hadoop
Data 31720 小时前
Hive数仓操作(九)
大数据·数据仓库·hive·hadoop
晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑20 小时前
JavaWeb(二)
java·数据仓库·hive·hadoop·maven
Data 3171 天前
Hive数仓操作(三)
大数据·数据库·数据仓库·hive·hadoop
Data 3171 天前
Hive数仓操作(十四)
大数据·数据库·数据仓库·hive·hadoop
Data 3171 天前
Hive数仓操作(十五)
大数据·数据库·数据仓库·hive·hadoop
Data 3171 天前
Hive数仓操作(七)
大数据·数据库·数据仓库·hive·hadoop
Data 3172 天前
Hive数仓操作(四)
大数据·数据库·数据仓库·hive·hadoop
Mephisto.java2 天前
【大数据入门 | Hive】Join语句
数据仓库·hive·hadoop