计算机三级 - 数据库技术 - 第十四章 数据仓库与数据挖掘 笔记

++第十四章++ ++数据仓库与数据挖掘++

内容提要:

  1. 了解数据仓库相关技术
  2. 了解数据仓库的设计、建造、运行及维护
  3. 了解OLAP及多维数据模型
  4. 了解数据挖掘技术

  • 决策支持系统(DSS):综合利用大量数据有机组合众多模型(数学模型和数据处理模型),通过人机交互,辅助各级决策者实现科学决策的系统。

|----------------------------------------------------------------------------|
| |

14.2 数据仓库技术概述:

数据仓库的概念与特性:

 ##### 建立数据仓库的目的:

 * 根据决策需求对企业的数据采取适当的手段进行集成,形成一个综合的面向分析的数据环境,用于支持企业的信息型决策型的分析应用。
 ##### 数据仓库的特性:

 1. 面向主题性:
    * 数据仓库中的数据是以面向主题的方式进行组织的。
    * 目前,数据仓库主题数据的实现采用关系型数据库技术。
 2. 集成性:
    * 数据仓库最重要的特性。分为数据抽取、转换、清理(过滤)和装载4项任务
 3. 不可更新性:
    * 数据仓库中的数据以批量方式处理,不进行一般意义上的数据更新。
 4. 时间特性:
    * 随时间变化:不断捕捉数据。

数据仓库的体系结构与环境:

  • 从数据层次角度可分为:操作性数据、操作性数据存储、数据仓库、数据集市,也可以包括个体层数据
  • 从功能结构角度可分为:数据处理、数据管理、数据应用

数据仓库的数据组织:

  • 粒度:
    • 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小
  • 数据分区(分割):
    • 将数据分散到各自的物理单元中去,它们能独立地处理。
    • 最常见的是按照时间标准分区。
  • 元数据:
    • 关于数据的数据,或叫描述数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。
    • 它描述了数据的结构、内容、链和索引等内容
    • 分为:技术型元数据和业务型元数据
  • 数据集市 -- 小型的,面向部门或工作组级数据仓库

操作型数据存储(ODS) :

  • 是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。
  • 四个基本特点:面向主题、集成、可变、当前或接近当前的。

|----------------------------------------------------------------------------|
| |

14.3 设计与建造数据仓库

|---------------------------------------------------------------------------------|
| |
| CLDS由数据开始,一旦数据到手,就集成数据,然后,如果数据有偏差,就检验看看数据存在什么偏差,再针对数据写程序,分析程序执行结果,最后,系统需求才得到理解。 |

数据仓库的数据模型:

  • 数据仓库的数据模型分为概念(E-R图)、逻辑(关系型模型或多维数据模型)、物理三级数据模型。与普通数据库系统的数据模型不同。
    1. 一般不包含纯操作型数据。
    2. 一般需要扩充关键字结构,在其中加入时间属性。
    3. 需要增加导出数据。

数据仓库设计步骤:

  • 数据仓库的设计过程分为:

概念模型设计、技术评估与环境准备工作、逻辑模型设计、物理模型设计、数据生成与应用实现、数据仓库运行与维护

|-----------------------------------------------------------------------------|
| |

14.4 数据仓库的运行和维护

数据仓库数据的更新维护

维护策略
  1. 实时维护

在数据源发生变化时,立即更新

2.延时维护

在数据仓库中的视图被查询时完成更新

3.快照维护

定期对数据仓库进行维护,触发条件是时间

捕捉数据源的变化

典型的方法有:

  1. 触发器
  2. 修改数据源应用程序
  3. 通过日志文件
  4. 快照比较法

14.5 联机分析处理与多维数据模型:

OLAP简介

  • OLAP--联机分析处理或在线分析处理
    • 主要用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。
  • OLAP工具一般具有快速、可分析和多维的特点。

多维分析的基本操作

  1. 钻取与卷起

OLAP分析最基本的操作。钻取指对应于某维逐步向更细节层方向观察数据,卷起则反

  1. 切片和切块

实现局部数据的显示。

  1. 旋转

改变一个报告或页面显示的维方向,得到不同视角的数据。最简单的旋转就是数据交叉

OLAP的实现方式

OLAP的实现方式有三种:

  1. 基于多维数据库的OLAP(MOLAP)
    • 以多维数组为基本存储结构。
  2. 基于关系数据库的OLAP(ROLAP)
    • 采用关系表表示和存储。(星形模式或雪花模式)
  3. 混合型的OLAP(HOLAP)
    • 结合MOLAP与ROLAP。具有最好的查询性能。

14.6 数据挖掘技术:

  • 数据挖掘:
    • 就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程

数据挖掘步骤:

  • 数据挖掘作为知识发展的过程,分为三个阶段
    1. 数据准备

三个子步骤:数据选取,数据预处理,数据变化

  1. 数据挖掘

首先确定挖掘的任务,其次决定挖掘算法

  1. 结果解释评估

剔除几余或无关的模式

常见的数据挖掘任务:

  1. 分类预测任务

常见的方法:决策树、神经网络、规则归纳、支持向量机、贝叶斯、粗糙集、回归分析、K-最近邻等。

  1. 描述型任务

典型的方法:聚类、关联、分析等。

关联规则挖掘

  • 关联规则挖掘过程主要包含两个阶段:
    • 第一阶段必须先从资料集合中找出所有的高频项目组
    • 第二阶段再由这些高频项目组中产生关联规则

分类挖掘

  • 用于预测数据对象的离散类别
  • 一般分为两个步骤:
    • 通过已知数据集,建立分类函数,构造分类器
    • 利用所获得的分类函数对未知类别标记的数据项进行分类操作。

聚类挖掘

  • 用于对集中的数据进行分组,使得每组内的数据尽量相似而不同,组间的数据尽可能不同。
  • 聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法等

时间序列分析

  • 时间序列----用时间排序的一组随机变量。
  • 时间序列分析----又称为数据演变分析,描述行为随时间变化的对象的规律或趋势,并对其进行建模
  • 从不同角度可分为:一元时间序列和多元时间序列;等间隔时间序列和不等间隔时间序列;平稳时间序列和非平稳时间序列。

其余章节进我主页进行查看

相关推荐
Charles Ray5 分钟前
C++学习笔记 —— 内存分配 new
c++·笔记·学习
重生之我在20年代敲代码5 分钟前
strncpy函数的使用和模拟实现
c语言·开发语言·c++·经验分享·笔记
我要吐泡泡了哦1 小时前
GAMES104:15 游戏引擎的玩法系统基础-学习笔记
笔记·学习·游戏引擎
骑鱼过海的猫1231 小时前
【tomcat】tomcat学习笔记
笔记·学习·tomcat
kejijianwen2 小时前
JdbcTemplate常用方法一览AG网页参数绑定与数据寻址实操
服务器·数据库·oracle
编程零零七2 小时前
Python数据分析工具(三):pymssql的用法
开发语言·前端·数据库·python·oracle·数据分析·pymssql
贾saisai3 小时前
Xilinx系FPGA学习笔记(九)DDR3学习
笔记·学习·fpga开发
北岛寒沫3 小时前
JavaScript(JS)学习笔记 1(简单介绍 注释和输入输出语句 变量 数据类型 运算符 流程控制 数组)
javascript·笔记·学习
烟雨666_java3 小时前
JDBC笔记
笔记
GEEKVIP3 小时前
Android 恢复挑战和解决方案:如何从 Android 设备恢复删除的文件
android·笔记·安全·macos·智能手机·电脑·笔记本电脑