数据仓库【1】：简介

QQ7198725782023-12-27 10:47

数据仓库【1】：简介

1、诞生背景
2、基本概述
- [2.1、数据仓库（Data Warehouse，DW）](#2.1、数据仓库（Data Warehouse，DW）)
- 2.2、数据仓库特点
- [2.3、数据仓库 VS 数据库](#2.3、数据仓库 VS 数据库)
3、技术实现
[4、MPP & 分布式架构](#4、MPP & 分布式架构)
- 4.1、MPP架构
- 4.2、分布式架构
- [4.3、MPP + 分布式架构](#4.3、MPP + 分布式架构)
5、常见产品
- 5.1、传统数据仓库
- 5.2、大数据数据仓库

1、诞生背景

1.1、数据仓库诞生原因

历史数据积存
企业数据分析需要

1.2、历史数据积存

历史数据使用频率低，堆积在业务库中，导致性能下降

1.3、企业数据分析需要

各个部门自己建立独立的数据抽取系统，导致数据不一致

2、基本概述

2.1、数据仓库（Data Warehouse，DW）

由数据仓库之父比尔·恩门（Bill Inmon）提出
数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合
主要用于组织积累的历史数据，并使用分析方法（OLAP、数据分析）进行分析整理，进而
辅助决策，为管理者、企业系统提供数据支持，构建商业智能

2.2、数据仓库特点

面向主题：为数据分析提供服务，根据主题将原始数据集合在一起
集成：原始数据来源于不同数据源，要整合成最终数据，需要经过抽取、清洗、转换的过程
非易失：保存的数据是一系列历史快照，不允许被修改，只允许通过工具进行查询、分析
时变性：数仓会定期接收、集成新的数据，从而反映出数据的最新变化

2.3、数据仓库 VS 数据库

数据库面向事务设计，属于OLTP（在线事务处理）系统，主要操作是随机读写；在设计时尽
量避免冗余，常采用符合范式规范来设计
数据仓库是面向主题设计的，属于OLAP（在线分析处理）系统，主要操作是批量读写；关
注数据整合，以及分析、处理性能；会有意引入冗余，采用反范式方式设计

3、技术实现

3.1、数据仓库建设方案

传统数据仓库
大数据数据仓库

3.2、传统数据仓库

由关系型数据库组成MPP（大规模并行处理）集群

3.3、大数据数据仓库

利用大数据天然的扩展性，完成海量数据的存放
将SQL转换为大数据计算引擎任务，完成数据分析

4、MPP & 分布式架构

4.1、MPP架构

传统数仓中常见的技术架构，将单机数据库节点组成集群，提升整体处理性能
节点间为非共享架构（Share Nothing），每个节点都有独立的磁盘存储系统和内存系统
每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供服务
设计上优先考虑C(一致性)，其次考虑 A(可用性)，尽量做好P(分区容错性)
架构优点
- 运算方式精细，延迟低、吞吐低
- 适合中等规模的结构化数据处理
  架构缺点
- 存储位置不透明，通过Hash确定数据所在的物理节点，查询任务在所有节点均会执行
- 并行计算时，单节点瓶颈会成为整个系统短板，容错性差
- 分布式事务的实现会导致扩展性降低

4.2、分布式架构

大数据中常见的技术架构，也称为Hadoop架构/批处理架构
各节点实现场地自治（可以单独运行局部应用），数据在集群中全局透明共享
每台节点通过局域网或广域网相连，节点间的通信开销较大，在运算时致力减少数据移动
优先考虑的是P（分区容错性），然后是A（可用性），最后再考虑C（一致性）
架构特点
- 解决了单点故障问题，会将出错的任务调度到其他副本节点
- 运算方式粗犷，吞吐量大
- 扩展性极强，适合处理非结构化、半结构化数据
- 需要将中间结果进行存储，且数据移动开销较大

4.3、MPP + 分布式架构

数据存储采用分布式架构中的公共存储，提高分区容错性
上层架构采用MPP，减少运算延迟

5、常见产品

5.1、传统数据仓库

Oracle RAC
DB2
Teradata
Greenplum

5.2、大数据数据仓库

Hive
Spark SQL
HBase
Impala
HAWQ
TIDB

上一篇：人脸识别技术演进：从几何算法到深度学习的深度剖析

下一篇：MongoDB创建和查询视图(一)

热门推荐

0100 Debian字符界面如何支持中文 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）052026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 06微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 072026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？08AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 092026开年大模型最新对比解析及场景落地指南 10历年考研数学一、数学二、数学三真题试卷及答案PDF