数据仓库简介(一)

数据仓库概述

1. 什么是数据仓库?

数据仓库(Data Warehouse,简称 DW)是由 Bill Inmon 于 1990 年提出的一种用于数据分析和挖掘的系统。它的主要目标是通过分析和挖掘数据,为不同层级的决策提供支持,构成商业智能(BI)的一部分。

1.1 数据仓库的目标

数据仓库的核心目标是:

  • 分析与挖掘数据:提供决策支持。
  • 集中数据存储:从多种来源采集和抽取数据,形成企业数据的全局视图。
  • ETL 技术:通过数据抽取、转换和加载(ETL)技术实现数据的统一集成。

1.2 数据仓库的定义

数据仓库是一个:

  • 面向主题的:专注于特定的业务主题。
  • 集成的:从不同的数据源聚合数据。
  • 相对稳定的:数据在装入后一般不可更新,主要用于查询。
  • 反映历史变化的:保存历史数据,支持管理决策。

4. 数据仓库的特点

面向主题

数据仓库专注于特定业务领域,仅保留与该主题相关的数据,排除无关细节。

随时间变化

数据仓库能够保存历史数据,支持基于时间变化的分析,通常使用拉链表的方式在保证访问历史快照的同时降低存储空间。

集成的

通过 ETL 操作,将来自不同来源的数据集成到统一的数据仓库中。

数据不可更新

数据仓库的数据在加载后主要进行查询操作,不支持传统数据库的增删改操作,反映的是长时间范围内的历史数据。

5. 数据仓库与关系型数据库区别

特性 数据仓库 /Hive 关系型数据库/Mysql,Oracle
数据范围 历史的/完整的/反映历史变化的数据 当前在线交易状态数据
数据变化 可添加/无删除/无更新/反应历史变化 支持频繁的增删改查
应用场景 BI、支持战略决策 面向业务交易/事务流程
设计理论 面向主题设计、违背范式、适当冗余 面向事务设计、遵循范式、避免冗余
处理特点 非频繁/大批量/高吞吐/有延迟 频繁/小批次/高并发/低延迟
服务对象 分析数据、服务于决策支持 捕获数据、服务于业务操作人员
相关推荐
isNotNullX4 小时前
企业数据中台建设,ETL工具选错了会踩哪些坑?
数据仓库·etl·原型模式
SelectDB技术团队6 小时前
预约发布会|核心产品力首发,如何构建面向 Agent 时代的企业级数据引擎
数据库·数据仓库·人工智能·数据分析·可观测·apache doris·selectdb
Nefu_lyh7 小时前
【Hive】六、Hive 运算逻辑:数学 / 逻辑 / 条件 / 日期 / 字符串函数
数据仓库·hive·hadoop
ChaITSimpleLove7 小时前
Etl.Net 2.2.0 项目深度分析
数据仓库·.net·etl·大数据处理·数据管道·数据处理引擎
陆水A1 天前
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理
大数据·数据仓库·数据分析·flink·数据库开发·bigdata
zhangjin12221 天前
DataX从入门到精通 第1课 ETL之DataX 安装DataX
数据仓库·etl·datax·datax安装教程
zhangjin12221 天前
DataX从入门到精通 第2课 ETL之DataX 安装datax-web
数据仓库·etl·datax·datax-web·datax-web安装教程
Database_Cool_1 天前
AI 时代的数据仓库:阿里云 AnalyticDB MySQL 向量检索 + SQL 分析一体化实战
数据仓库·人工智能·mysql·阿里云
AQin10121 天前
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
数据仓库·hive·hadoop·doris
Database_Cool_1 天前
数据仓库弹性扩缩容实践:阿里云 AnalyticDB MySQL 按需付费方案详解
数据仓库·mysql·阿里云