数据仓库·简介（一）

链接: 学习笔记来自哔哩哔哩视频

一、数据仓库诞生背景

1、诞生背景：各系统自的业务数据库，个数据库没有统一规范

2、数据仓库面向分析，业务数据库面向业务系统（作用的类型各不相同，各司其职）

1、数据仓库之父是：比尔·恩门（Bill Inmon）

2、数据仓库是一个面向主题的 ，集成的 ，非易失的 且随时间变化的数据集合。

面向主题：为数据分析提供服务，根据主题将原始数据集合在一起。

根据主题将业务数据抽取，形成一张宽表。
集成：将不同业务系统中，各种数据抽取，清洗，转换整合成最终的数据。（因为各业务系统，各厂商的库表数据，数据字段，字典类型的各不相同）
非易失：保存数据的一系列历史快照，定期从业务库同步数据，各个时间段的数据记录，不可修改只可查询分析。
时变性：数据仓库定期抽取集成新数据，反映数据的最新变化。（因业务库的数据每天都会存在变化，将数据存放到数据仓库使用时间戳标记，老旧数据也可以删除，但是不建议这么干）

作用：用于组织积累的历史数据，并使用分析法（OLPAP，数据分析） 进行分析整理，进而辅助决策，为管理者，企业系统提供数据支持，构建商业智能。

3、数据仓库和数据库对比

1、传统数据仓库：由关系型数据库组成的MPP（大规模并行处理）集群，早期的考虑也是由关系型数据来做数据仓库，方便数据迁移整合，但数据大了，单机就不够，就来个集群，完全兼容SQL，但是数据持续曾涨就出现了问题

扩展有限：即使使用集群始终还是关系型数据库（使用数据仓库就是关系型数据库出现瓶颈）
热点问题：假如有100万行数据，集群有十个库，每个库存放10万，恰巧第一个十万就是热点数据，该节点就出现了压力过大崩溃，就影响了整体。（虽然有一种数据加盐的技术可以分散到各个库，但依旧存在问题）
2、大数据仓库
利用大数据天然扩展性，完成海量数据的存储。
将SQL转换成大数据计算引擎任务，完成数据分析。
易用性差，一般的数据存储在业务数据库，使用大数据需要大量数据迁移。
问：会不会同样有热点问题？
分布式数据仓库通常会有备份，备份三份，降低热点。
缺点：缺少事务支持，数据仓库主要关注分析
数据少时会很慢，浪费在调度上。

1、MPP架构（中等规模）

优点：

缺点：

2、分布式架构（海量数据）

传统数据仓库 ：Oracle RAC， DB2， Teradata, Greenplum
大数据数据仓库：Hive(Hadoop)，Spark SQL (Spark)，Hbass（大数据NoSQL，高并发读），Impala，HAWQ， TIDB。