NCRE-三级数据库技术-第14章-数据仓库与数据挖掘

文章适用于计算机等级考试NCRE三级数据库技术,内容来源于网络,文章内容侵删,如果文章和个人的理解有出入,请务必以自己的知识储备为准,仅做参考

14.1 决策支持系统的发展

在搭建了数据仓库后,企业如何利用日益增长的数据为企业管理和决策服务,经过研究和实践产生了数据仓库和数据挖掘技术

14.1.1 决策支持系统概念

数据可以分为分析型数据(用于OLAP)和操作性数据(用于OLTP)

决策支持系统DDS:综合利用大量数据有机组合众多模型,通过人机交互,辅助各级决策者实现科学决策的系统

14.1.2 决策支持系统演化

  • 20世纪70年代,首次提出DSS
  • 20世纪80年代,提出管理信息MIS,又被改称为DSS,传统DSS是在OLTP环境下的
  • 大型OLTP出现后,需要使用数据抽取程序解决性能和历史数据问题,需要解决分析系统和事务系统性能不匹配的情况
  • 自然演化体系结构 :由不规范的抽取过程,从而产生的结构称为"自然演化体系结构",该结构具有数据来源复杂、缺乏可信性、流通和存储不规范等问题
    • 为了解决上述问题,提出了专门为决策者建立的集成数据源,即数据仓库

14.1.3 基于数据仓库的DSS

在该系统中,数据仓库是核心(数据可信、质量高、粒度细),操作新系统是数据源,决策支持系统是数据使用者

14.2 数据仓库技术概述

14.2.1 数据仓库的概念与特性

数据仓库的目的:根据决策需求对企业数据采取适当的手段进行集成,形成一个综合的、面相分析的数据环境,用于支持企业的信息型、决策型的分析应用

数据仓库的特性:面向主题性、集成性、不可更新性、时间特性等

1.面向主题性

主题又称为分析主题或分析领域,数仓主题数据的实现采用关系型数据库

2.集成性

数据仓库最重要的特性,分为数据抽取、转换、清理、装载四个步骤

3.不可更新性

数据仓库的数据以批量方式处理,不进行一般意义上的数据更新

4.时间特性

不断获取、处理、存储数据

14.2.2 数据仓库的体系结构与环境

  • 从数据层次角度看,数据仓库的数据体系结构包括:操作性数据、操作型数据存储、数据仓库、数据集市
  • 从功能结构看,可分为数据处理、数据管理、数据应用14个层次

14.2.3 数据仓库的数据组织

1.粒度
  • 粒度:数据仓库的保存数据的细化或综合程度的借呗,细化程度越高,粒度越小
  • 影响:粒度影响到数据仓库的数据量及系统能回答的查询的类型
  • 设计原则:进行数据仓库的数据组织时,应根据当前应用的需求进行多粒度级设计,满足多角度,多层次数据查询要求
2.数据分区/分割
  • 定义:将数据分散到独自的物理单元中,能够独立的处理
  • 常见方式:最常见的是按照时间标准分区
  • 分区方式分类
    • 系统层分区(数据库系统提供机制)
    • 应用层分区(有应用代码实现)
  • 控制权:如何分区由开发者和程序员控制
3.元数据
  • 定义:元数据是描述数据的数据,用于构造、维持、管理、使用数据仓库
  • 内容:元数据描述了数据的结构、内容、链、索引等内容
  • 分类:元数据分成技术型元数据和业务型元数据
  • 作用:元数据解决了人在何时何地因为什么原因如何使用数据仓库的问题
4.数据集市Data Mart

小型的,面向一个部门或工作组的数据仓库

5.操作性数据存储ODS

Operation Data Store,数据仓库的一部分,能支持企业日常的全局应用的数据集,不同于DB,是数据仓库扩展后获得的,具有"面向主题、集成的、可变的、当前或接近当前"的特点,分为以下四个级别:

  • ODS Ⅰ:数据更新频率为秒级
  • ODS Ⅱ:数据更新频率为小时级
  • ODS Ⅲ:数据更新频率为天级
  • ODS Ⅳ:根据数据源方向和类型区分

14.3 设计与建设数据仓库

14.3.1 数据仓库设计方法

  • 传统数据库开发方法SDLC:收集需求→分析→设计→编程→调试→集成→实现
  • 数据仓库开发方法CLDC:实现数据仓库→集成数据→校验偏差→针对数据编程→设计DSS系统→分析结果→理解需求
  • 对比
    • SDLC是典型的需求驱动开发生命周期
    • CLDC是典型的数据驱动开发生命周期

14.3.2 数据仓库的数据模型

  • 概念模型
  • 逻辑模型
  • 物理三级数据模型

14.3.3 数据仓库的设计步骤

  1. 概念模型设计
  2. 技术评估与环境准备
  3. 逻辑模型设计
  4. 物理模型设计
  5. 数据生成与应用实现
  6. 数据仓库运行与维护

14.4 数据仓库的运行和维护

14.4.1 数据仓库数据的更新与维护

1.数据仓库维护的基本思路
  • 根据某种维护策略,在一定条件下触发维护操作
  • 维护操作捕捉到数据源中的数据变化
  • 通过一定策略对数据仓库中的数据进行相应的更新操作,以保持一致性
2.维护策略
  • 实时维护:数据源发声变化时,立即更新
  • 延时维护:在数据仓库的视图被查询时,完成更新
  • 快照维护:定期对数据仓库进行维护
3.捕捉数据源变化

当数据发生变化时,需要有专门的机制通知数据仓库发生的变化,例如:

  • 触发器
  • 修改数据源应用程序
  • 通过日志文件
  • 快照比较法
4.导出数据的刷新方法
  • 根据维护对象的数据源进行重新计算
  • 根据数据源的变化量在维护对象原有数据的基础上进行添加和修改,即增量维护
5.数据仓库监控

需要对数据仓库的数据量、数据使用率、用户和安全状况、网络通信情况、网络数据流量、数据源数据变化情况、集成和维护工具运行效率、查询响应时间、应用支持效率等进行监控

14.5 OLAP与多维数据模型

14.5.1 OLAP简介

OLAP:主要用于支持复杂的分析操作,为决策人员提供辅助支持,具有快速、可分析多维数据的特点

14.5.2 多维分析的基本概念

针对数据仓库中以多维形式组织起来的数据,从多个角度、不同层次采取各种数据分析技术,对数据进行剖析,从而可以在不同角度和层次分析数据

14.5.3 多维分析的基本操作

  • 钻取与卷起:OLAP分析的基本操作,钻取指对于某一个维度进行更深层次的观察,卷起反之
  • 切片和切块:实现局部数据的显示
  • 旋转:改变一个报告显示的维度方向,例如数据交叉

14.5.4 OLAP的实现

  • 基于多维护数据库的OLAP(MOLAP):以多维数组为基本存储结构
  • 基于关系数据库的OLAP(ROLAP):以关系表表示和存储(星形/雪花模式)
  • 混合型的OLAP(HOLAP):结合MOLAP与ROLAP,查询性能最好

14.6 数据挖掘技术

14.6.1 数据挖掘的概念

从大量的、不完全的、有噪声的、模数的、随机的、实际的应用数据中,提取其中有用信息的过程

14.6.2 数据挖掘步骤

  1. 数据准备:数据选取;数据预处理;数据变化
  2. 数据挖掘:先确定挖掘任务,后决定挖掘算法
  3. 结果解释评估:剔除冗余或无关的模式

14.6.3 数据挖掘任务

  • 分类预测任务:决策树、神经网络、规则归纳、支持向量机、贝叶斯、回归分析、K-最近邻等
  • 描述性任务:聚类、关联、分析等

14.6.4 关联规则挖掘

  • 第一阶段:从资料集合中找出高频项目组
  • 第二阶段:由高频项目组中产生关联规则

14.6.5 分类挖掘

  • 第一阶段:通过已知数据集,建立分类函数,构造分类器
  • 第二阶段:利用分类函数对未知类别的数据进行分类

14.6.6 聚类挖掘

用于对集中数据进行分组,使得每组内的数据尽量相似,组间的数据尽量不同

包括统计方法、机器学习法、神经网络法和面向数据库方法等

14.6.7 时间序列分析

  • 时间序列:用时间排序的一组随机变量
  • 时间序列分析:又称数据演变分析,描述行为随时间变化的规律或趋势
  • 分类
    • 一元时间序列和多元时间序列
    • 等间隔时间序列和不等间隔时间序列
    • 平稳时间序列和非平稳时间序列
相关推荐
刘~浪地球3 小时前
Redis 从入门到精通(十):管道技术
数据库·redis·缓存
fzb5QsS1p6 小时前
MySQL 事务的二阶段提交是什么?
数据库·mysql
清风徐来QCQ9 小时前
Lombok/SSM/devTools
数据库
LaughingZhu9 小时前
Product Hunt 每日热榜 | 2026-04-05
前端·数据库·人工智能·经验分享·神经网络
2601_9498146910 小时前
使用mysql报Communications link failure异常解决
数据库·mysql
搜佛说10 小时前
02-第2章-核心概念与架构
数据库·物联网·微服务·架构·边缘计算·iot
C'ᴇsᴛ.小琳 ℡11 小时前
高性能NoSQL
数据库·nosql
i220818 Faiz Ul12 小时前
动漫商城|基于springboot + vue动漫商城系统(源码+数据库+文档)
java·数据库·vue.js·spring boot·论文·毕设·动漫商城系统
iNgs IMAC12 小时前
redis 使用
数据库·redis·缓存