软考笔记--数据仓库技术

数据仓库是一个面向主题的，集成的，相对稳定的、反映历史变化的数据集合，用于支持管理决策。数据源是数据仓库系统的基础，是整个系统的数据源泉。OLAP（联机分析处理）服务器对分析需要的数据进行有效集成，按多维模型予以组织，以便进行多角度、多层次的分析，并发现趋势。前端工具主要包括各种报表工具，查询工具，数据分析工具和数据挖掘工具，以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器，报表工具、数据挖掘工具主要针对数据仓库。

一.联机分析处理

数据处理大致可以分为两大类，分别是联机事务处理（OLTP）和OLAP。OLTP是传统数据库的主要应用，支持基本的、日常的事务且提供直观易懂的查询结果。

在OLTP中，数据是以二维表的形式来组织的，但是在OLAP中，数据通常是多维的。这个维度一般包含层次关系，这种层次关系有时会相当复杂，因此OLAP也可以说是多维数据分析工具的集合。

1.数据立方体

在多维的数据结构中，三维结构最为直观。

2.多维分析

OLAP的基本多维分析操作有钻取、切片和切块。

(1)钻取。钻取是改变维的层次，变换分析的粒度。包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数，是一种自动生成汇的分析方法。通过向导的方式，用户可以定义和分析因素的汇总行。向下钻取则刚好相反，它从汇总数据深入到细节数据进行观察或增加新的维数。

(2)切片和切块。切片和切块是在一部分维上选定值后，关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片；如果有三个以上，则是切块。

(3)旋转。旋转是变换维的方向，重新安排维的放置。

3.实现方法

OLAP有多种实现方法，根据存储数据的方式不同，可以分为关系型ROLAP，多维型MOLAP和混合型HOLAP。

ROLAP表示基于关系型数据库的OLAP的实现。以关系数据库为核心，以关系型结构进行多维数据的表示和存储。

MOLAP表示基于多维数据组织的OLAP实现。以多维数据组织方式为核心。也就是说，MOLAP使用多维数组存储数据。

HOLAP表示基于混合数据组织的OLAP实现，例如底层是关系型的，高层是多维型的，这种方式有更好的灵活性。

二.数据仓库概述

企业数据仓库的建设，是以现有企业业务系统和大量业务数据的积累为基础。数据仓库也不是静态的概念，只有将信息及时交给需要这些信息的使用者，供他们做出改善其业务经营的决策，信息才能发挥作用。而将信息加以整理归纳和重组，并及时提供给响应的管理决策人员，是数据仓库的根本任务。因此，数据仓库的建设，是一个过程。

1.ETL过程

数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别与传统数据库，同时也决定了对其外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心，则需要从数据仓库的技术特点分析。针对现有各业务系统的数据，进行抽取、清理、并有效集成，按照主题进行组织，整个过程可以简称为抽取、转化和加载，简称ELT。负责将分布的异构数据源中的数据抽取到临时中间层后进行清晰转化和集成，最后加载到数据仓库或数据集市中，称为OLAP和数据挖掘的基础。相对于数据库，数据仓库技术没有严格的数学理论基础，它面向实际工程应用。

2.数据仓库的分类

从结构的角度，可以分为企业仓库，数据集市仓库和虚拟仓库。

(1)企业仓库。企业仓库面向企业级应用，它搜集了企业的各个主题的所有信息，提供企业范围的数据集成，数据通常来自多个操作型数据库和外部信息提供者，并且是快多个功能范围的。

(2)数据集市。数据集市面向企业部门级应用，包含对特定用户有用的，企业范围数据的一个子集，它的范围限定在选定的主题中。

(3)虚拟仓库。虚拟仓库是操作型数据库上视图的集合。为了有效地处理查询，只有一些可能的汇总视图被物化。虚拟仓库易于建立，但需要操作型数据库服务器具有剩余的工作能力。

3.非结构化数据与数据仓库

合理地采用外部数据能使分析和决策更加准确，而这些外部数据通常都是一个非结构化的数据。因此，如何使用数据仓库管理非结构化数据，也是数据仓库应用中的一个重要的问题。为了更好地管理非结构化数据，数据仓库采用了元数据，元数据可用于记录数据的文件标识符，进入数据仓库的日期，文件描述，文件来源等信息。

虽然非结构化数据对分析与决策有重要意义，但由于存储大量非结构化数据将极大提高数据仓库的成本，所以并不是所有的非结构化数据都存于数据仓库中。当数据仓库没足够空间或存储费用过高时，可以将非结构化数据的元数据存储在数据仓库中，在需要使用改数据时，通过元数据找到它。

三.数据仓库的设计方法

数据仓库的设计方法有三种：自顶向下的方法和自底向上的方法以及两者混合的方法。

1.自顶向下的方法

自定向下的方法由总体规划和设计开始，通过对原始数据进行抽取，转化和迁移等处理之后，将数据输出到一个集中的数据驻留单元，然后数据和元数据装载进入数据仓库。

自定向下的方法遇到的难题：

(1)投资大

(2)应用周期长

(3)需求难以确定

2.自底向上的方法

自底向上的核心思想是从企业中最关键的部分开始，先以最少的投资，完成当前的需求，获得最快的回报，然后不断扩充，不断完善。

自底向上的方法有点在于企业能够以较小的投入，获得较高的数据仓库应用收益。

3.混合法

自顶向下和自底向上方法的联合使用具有两种方法的优点，既能快速地完成数据仓库的开发与应用，还可建立具有长远价值的数据仓库方案。