计算机三级 - 数据库技术 - 第十四章 数据仓库与数据挖掘 笔记

++第十四章++ ++数据仓库与数据挖掘++

内容提要:

  1. 了解数据仓库相关技术
  2. 了解数据仓库的设计、建造、运行及维护
  3. 了解OLAP及多维数据模型
  4. 了解数据挖掘技术

  • 决策支持系统(DSS):综合利用大量数据有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。

|----------------------------------------------------------------------------|
| |

14.2 数据仓库技术概述:

数据仓库的概念与特性:

复制代码
 ##### 建立数据仓库的目的:

 * 根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合的面向分析的数据环境,用于支持企业的信息型决策型的分析应用。
复制代码
 ##### 数据仓库的特性:

 1. 面向主题性:
    * 数据仓库中的数据是以面向主题的方式进行组织的。
    * 目前,数据仓库主题数据的实现采用关系型数据库技术。
 2. 集成性:
    * 数据仓库最重要的特性。分为数据抽取、转换、清理(过滤)和装载4项任务
 3. 不可更新性:
    * 数据仓库中的数据以批量方式处理,不进行一般意义上的数据更新。
 4. 时间特性:
    * 随时间变化:不断捕捉数据。

数据仓库的体系结构与环境:

  • 从数据层次角度可分为:操作性数据、操作性数据存储、数据仓库、数据集市,也可以包括个体层数据
  • 从功能结构角度可分为:数据处理、数据管理、数据应用

数据仓库的数据组织:

  • 粒度:
    • 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小
  • 数据分区(分割):
    • 将数据分散到各自的物理单元中去,它们能独立地处理。
    • 最常见的是按照时间标准分区。
  • 元数据:
    • 关于数据的数据,或叫描述数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
    • 它描述了数据的结构、内容、链和索引等内容
    • 分为:技术型元数据和业务型元数据
  • 数据集市 -- 小型的,面向部门或工作组级数据仓库

操作型数据存储(ODS) :

  • 是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
  • 四个基本特点:面向主题、集成、可变、当前或接近当前的。

|----------------------------------------------------------------------------|
| |

14.3 设计与建造数据仓库

|---------------------------------------------------------------------------------|
| |
| CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存在什么偏差,再针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。 |

数据仓库的数据模型:

  • 数据仓库的数据模型分为概念(E-R图)、逻辑(关系型模型或多维数据模型)、物理三级数据模型。与普通数据库系统的数据模型不同。
    1. 一般不包含纯操作型数据。
    2. 一般需要扩充关键字结构,在其中加入时间属性。
    3. 需要增加导出数据。

数据仓库设计步骤:

  • 数据仓库的设计过程分为:

概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护

|-----------------------------------------------------------------------------|
| |

14.4 数据仓库的运行和维护

数据仓库数据的更新维护

维护策略
  1. 实时维护

在数据源发生变化时,立即更新

2.延时维护

在数据仓库中的视图被查询时完成更新

3.快照维护

定期对数据仓库进行维护,触发条件是时间

捕捉数据源的变化

典型的方法有:

  1. 触发器
  2. 修改数据源应用程序
  3. 通过日志文件
  4. 快照比较法

14.5 联机分析处理与多维数据模型:

OLAP简介

  • OLAP--联机分析处理或在线分析处理
    • 主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
  • OLAP工具一般具有快速、可分析和多维的特点。

多维分析的基本操作

  1. 钻取与卷起

OLAP分析最基本的操作。钻取指对应于某维逐步向更细节层方向观察数据,卷起则反

  1. 切片和切块

实现局部数据的显示。

  1. 旋转

改变一个报告或页面显示的维方向,得到不同视角的数据。最简单的旋转就是数据交叉

OLAP的实现方式

OLAP的实现方式有三种:

  1. 基于多维数据库的OLAP(MOLAP)
    • 以多维数组为基本存储结构。
  2. 基于关系数据库的OLAP(ROLAP)
    • 采用关系表表示和存储。(星形模式或雪花模式)
  3. 混合型的OLAP(HOLAP)
    • 结合MOLAP与ROLAP。具有最好的查询性能。

14.6 数据挖掘技术:

  • 数据挖掘:
    • 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

数据挖掘步骤:

  • 数据挖掘作为知识发展的过程,分为三个阶段
    1. 数据准备

三个子步骤:数据选取,数据预处理,数据变化

  1. 数据挖掘

首先确定挖掘的任务,其次决定挖掘算法

  1. 结果解释评估

剔除几余或无关的模式

常见的数据挖掘任务:

  1. 分类预测任务

常见的方法:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等。

  1. 描述型任务

典型的方法:聚类、关联、分析等。

关联规则挖掘

  • 关联规则挖掘过程主要包含两个阶段:
    • 第一阶段必须先从资料集合中找出所有的高频项目组
    • 第二阶段再由这些高频项目组中产生关联规则

分类挖掘

  • 用于预测数据对象的离散类别
  • 一般分为两个步骤:
    • 通过已知数据集,建立分类函数,构造分类器
    • 利用所获得的分类函数对未知类别标记的数据项进行分类操作。

聚类挖掘

  • 用于对集中的数据进行分组,使得每组内的数据尽量相似而不同,组间的数据尽可能不同。
  • 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等

时间序列分析

  • 时间序列----用时间排序的一组随机变量。
  • 时间序列分析----又称为数据演变分析,描述行为随时间变化的对象的规律或趋势,并对其进行建模
  • 从不同角度可分为:一元时间序列和多元时间序列;等间隔时间序列和不等间隔时间序列;平稳时间序列和非平稳时间序列。

其余章节进我主页进行查看

相关推荐
LjQ20405 分钟前
网络爬虫一课一得
开发语言·数据库·python·网络爬虫
烙印6019 分钟前
MyBatis原理剖析(二)
java·数据库·mybatis
RestCloud10 分钟前
如何通过ETLCloud实现跨系统数据同步?
数据库·数据仓库·mysql·etl·数据处理·数据同步·集成平台
你是狒狒吗12 分钟前
TM中,return new TransactionManagerImpl(raf, fc);为什么返回是new了一个新的实例
java·开发语言·数据库
sponge'43 分钟前
opencv学习笔记2:卷积、均值滤波、中值滤波
笔记·python·opencv·学习
Channing Lewis1 小时前
sql server如何创建表导入excel的数据
数据库·oracle·excel
秃头摸鱼侠1 小时前
MySQL安装与配置
数据库·mysql·adb
UGOTNOSHOT1 小时前
每日八股文6.3
数据库·sql
行云流水行云流水2 小时前
数据库、数据仓库、数据中台、数据湖相关概念
数据库·数据仓库
John Song2 小时前
Redis 集群批量删除key报错 CROSSSLOT Keys in request don‘t hash to the same slot
数据库·redis·哈希算法