文章适用于计算机等级考试NCRE三级数据库技术,内容来源于网络,文章内容侵删,如果文章和个人的理解有出入,请务必以自己的知识储备为准,仅做参考
14.1 决策支持系统的发展
在搭建了数据仓库后,企业如何利用日益增长的数据为企业管理和决策服务,经过研究和实践产生了数据仓库和数据挖掘技术
14.1.1 决策支持系统概念
数据可以分为分析型数据(用于OLAP)和操作性数据(用于OLTP)
决策支持系统DDS:综合利用大量数据有机组合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统
14.1.2 决策支持系统演化
- 20世纪70年代,首次提出DSS
- 20世纪80年代,提出管理信息MIS,又被改称为DSS,传统DSS是在OLTP环境下的
- 大型OLTP出现后,需要使用数据抽取程序解决性能和历史数据问题,需要解决分析系统和事务系统性能不匹配的情况
- 自然演化体系结构 :由不规范的抽取过程,从而产生的结构称为"自然演化体系结构",该结构具有数据来源复杂、缺乏可信性、流通和存储不规范等问题
- 为了解决上述问题,提出了专门为决策者建立的集成数据源,即数据仓库
14.1.3 基于数据仓库的DSS
在该系统中,数据仓库是核心(数据可信、质量高、粒度细),操作新系统是数据源,决策支持系统是数据使用者
14.2 数据仓库技术概述
14.2.1 数据仓库的概念与特性
数据仓库的目的:根据决策需求对企业数据采取适当的手段进行集成,形成一个综合的、面相分析的数据环境,用于支持企业的信息型、决策型的分析应用
数据仓库的特性:面向主题性、集成性、不可更新性、时间特性等
1.面向主题性
主题又称为分析主题或分析领域,数仓主题数据的实现采用关系型数据库
2.集成性
数据仓库最重要的特性,分为数据抽取、转换、清理、装载四个步骤
3.不可更新性
数据仓库的数据以批量方式处理,不进行一般意义上的数据更新
4.时间特性
不断获取、处理、存储数据
14.2.2 数据仓库的体系结构与环境
- 从数据层次角度看,数据仓库的数据体系结构包括:操作性数据、操作型数据存储、数据仓库、数据集市
- 从功能结构看,可分为数据处理、数据管理、数据应用14个层次
14.2.3 数据仓库的数据组织
1.粒度
- 粒度:数据仓库的保存数据的细化或综合程度的借呗,细化程度越高,粒度越小
- 影响:粒度影响到数据仓库的数据量及系统能回答的查询的类型
- 设计原则:进行数据仓库的数据组织时,应根据当前应用的需求进行多粒度级设计,满足多角度,多层次数据查询要求
2.数据分区/分割
- 定义:将数据分散到独自的物理单元中,能够独立的处理
- 常见方式:最常见的是按照时间标准分区
- 分区方式分类 :
- 系统层分区(数据库系统提供机制)
- 应用层分区(有应用代码实现)
- 控制权:如何分区由开发者和程序员控制
3.元数据
- 定义:元数据是描述数据的数据,用于构造、维持、管理、使用数据仓库
- 内容:元数据描述了数据的结构、内容、链、索引等内容
- 分类:元数据分成技术型元数据和业务型元数据
- 作用:元数据解决了人在何时何地因为什么原因如何使用数据仓库的问题
4.数据集市Data Mart
小型的,面向一个部门或工作组的数据仓库
5.操作性数据存储ODS
Operation Data Store,数据仓库的一部分,能支持企业日常的全局应用的数据集,不同于DB,是数据仓库扩展后获得的,具有"面向主题、集成的、可变的、当前或接近当前"的特点,分为以下四个级别:
- ODS Ⅰ:数据更新频率为秒级
- ODS Ⅱ:数据更新频率为小时级
- ODS Ⅲ:数据更新频率为天级
- ODS Ⅳ:根据数据源方向和类型区分
14.3 设计与建设数据仓库
14.3.1 数据仓库设计方法
- 传统数据库开发方法SDLC:收集需求→分析→设计→编程→调试→集成→实现
- 数据仓库开发方法CLDC:实现数据仓库→集成数据→校验偏差→针对数据编程→设计DSS系统→分析结果→理解需求
- 对比 :
- SDLC是典型的需求驱动开发生命周期
- CLDC是典型的数据驱动开发生命周期
14.3.2 数据仓库的数据模型
- 概念模型
- 逻辑模型
- 物理三级数据模型
14.3.3 数据仓库的设计步骤
- 概念模型设计
- 技术评估与环境准备
- 逻辑模型设计
- 物理模型设计
- 数据生成与应用实现
- 数据仓库运行与维护
14.4 数据仓库的运行和维护
14.4.1 数据仓库数据的更新与维护
1.数据仓库维护的基本思路
- 根据某种维护策略,在一定条件下触发维护操作
- 维护操作捕捉到数据源中的数据变化
- 通过一定策略对数据仓库中的数据进行相应的更新操作,以保持一致性
2.维护策略
- 实时维护:数据源发声变化时,立即更新
- 延时维护:在数据仓库的视图被查询时,完成更新
- 快照维护:定期对数据仓库进行维护
3.捕捉数据源变化
当数据发生变化时,需要有专门的机制通知数据仓库发生的变化,例如:
- 触发器
- 修改数据源应用程序
- 通过日志文件
- 快照比较法
4.导出数据的刷新方法
- 根据维护对象的数据源进行重新计算
- 根据数据源的变化量在维护对象原有数据的基础上进行添加和修改,即增量维护
5.数据仓库监控
需要对数据仓库的数据量、数据使用率、用户和安全状况、网络通信情况、网络数据流量、数据源数据变化情况、集成和维护工具运行效率、查询响应时间、应用支持效率等进行监控
14.5 OLAP与多维数据模型
14.5.1 OLAP简介
OLAP:主要用于支持复杂的分析操作,为决策人员提供辅助支持,具有快速、可分析多维数据的特点
14.5.2 多维分析的基本概念
针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次采取各种数据分析技术,对数据进行剖析,从而可以在不同角度和层次分析数据
14.5.3 多维分析的基本操作
- 钻取与卷起:OLAP分析的基本操作,钻取指对于某一个维度进行更深层次的观察,卷起反之
- 切片和切块:实现局部数据的显示
- 旋转:改变一个报告显示的维度方向,例如数据交叉
14.5.4 OLAP的实现
- 基于多维护数据库的OLAP(MOLAP):以多维数组为基本存储结构
- 基于关系数据库的OLAP(ROLAP):以关系表表示和存储(星形/雪花模式)
- 混合型的OLAP(HOLAP):结合MOLAP与ROLAP,查询性能最好
14.6 数据挖掘技术
14.6.1 数据挖掘的概念
从大量的、不完全的、有噪声的、模数的、随机的、实际的应用数据中,提取其中有用信息的过程
14.6.2 数据挖掘步骤
- 数据准备:数据选取;数据预处理;数据变化
- 数据挖掘:先确定挖掘任务,后决定挖掘算法
- 结果解释评估:剔除冗余或无关的模式
14.6.3 数据挖掘任务
- 分类预测任务:决策树、神经网络、规则归纳、支持向量机、贝叶斯、回归分析、K-最近邻等
- 描述性任务:聚类、关联、分析等
14.6.4 关联规则挖掘
- 第一阶段:从资料集合中找出高频项目组
- 第二阶段:由高频项目组中产生关联规则
14.6.5 分类挖掘
- 第一阶段:通过已知数据集,建立分类函数,构造分类器
- 第二阶段:利用分类函数对未知类别的数据进行分类
14.6.6 聚类挖掘
用于对集中数据进行分组,使得每组内的数据尽量相似,组间的数据尽量不同
包括统计方法、机器学习法、神经网络法和面向数据库方法等
14.6.7 时间序列分析
- 时间序列:用时间排序的一组随机变量
- 时间序列分析:又称数据演变分析,描述行为随时间变化的规律或趋势
- 分类 :
- 一元时间序列和多元时间序列
- 等间隔时间序列和不等间隔时间序列
- 平稳时间序列和非平稳时间序列