数据仓库与数据挖掘（第三版）陈文伟思维导图1-5章作业

第一章概述

复制代码

### 8.基于数据仓库的决策支持系统与传统决策支持系统有哪些区别？

* 决策支持系统经历了4个阶段。

* 1.基本决策支持系统

  * 是在运筹学单模型辅助决策的基础上发展起来的，以模型库系统为核心，以多模型和数据库的组合形成方案辅助决策。

  * 它开创了用计算机技术实现科学决策的时代。

* 2.智能决策支持系统

  * 把基本决策支持系统和专家系统结合起来，强化了定量（数学模型）和定性（以知识推理的专家系统）相结合的辅助决策的效果。

* 3.基于数据仓库的决策支持系统

  * 以数据仓库的大量数据为基础，结合多维数据分析以及数据挖掘技术，起一种新的辅助决策效果。

  * 它能从数据中获得信息和知识，实现了商务智能的要求，故它也是商务智能的结构。

* 4.网络环境决策支持系统

  * 是在网络上采用客户/服务器结构。

  * 决策支持系统的综合部件（人机交互与问题综合）由网络上的客户机来完成。数据、模型和知识资源以服务器形式在网络上提供并发共享服务。

  * 这样，可以实现多人在网络上同时完成各自的决策支持系统。

复制代码

### 7.数据挖掘应用于数据库与数据仓库有什么不同？

* 数据挖掘的算法都是在二维表中进行的，适合于数据库。

* 对于多维的数据仓库，要利用数据挖掘的算法，需要抽取出二维表的数据。

复制代码

### 4.说明数据仓库与大数据的关系？

* 数据仓库是企业或大单位的大数据。

  * 数据仓库中的数据包含了它所属部门的所有现在的详细数据，还包含了多年的历史数据，以及为各级领导提供的各类综合数据。数据量之大都是为决策服务的。 企业为了了解其他单位的情况，还要到政府部门或者网络上去找相关数据。

* 数据仓库是大数据的一种表现形式。

* 大数据是当前社会的所有数据的总称。

  * 对于一个企业、政府部门等并不需要所有的数据，只关心与它们有关的数据。数据仓库就是企业或大单位的基本大数据。

复制代码

### 2.说明OLTP与OLAP的主要区别。

* 概念

  * 1.联机事务处理 (Online Transaction Processing,OLTP）

    * 用户的数据可以立即传送到计算中心进行处理，短时间内给出处理结果。

    * 实时系统(Real Time System)

  * 2.联机分析处理 （Online Analytica Processing,OLAP）

    * 利用多维数据库进行多维分析。

* 对比

  * ![](https://file.jishuzhan.net/article/1778262899618222081/8f39d28ffc8a1d52ba7ec7df8da6040c.webp)

复制代码

## 第二章 DW原理

*

  ### 1.数据库中的数据和数据仓库中的数据，在辅助决策上有什么不同？

  * 数据库中的数据表现了当前的实际状况

    * 其数据组织是二维关系数据库，是为管理业务服务的。 DB中的数据为模型计算所使用，其本身不直接为辅助决策用。 数学模型利用数据库中的数据算出结果后的数据，是为辅助决策用的。

  * 数据仓库中的数据是直接为辅助决策用的

    * 其数据组织是多维数据， 实际存储时采用关系数据库的星形结构形式或者采用多维数据库形式（超立方体）。 通过OLAP发现问题或找出原因，或通过统计分析辅助决策。 建立数据仓库就是为决策服务的。

*

  ### 3.说明数据仓库结构图中轻度综合数据层与高度综合数据层的数据是临时计算出的吗？

  * 不是临时计算出来的，而是在建数据仓库时同时建好的。

    * 轻度综合数据与高度综合数据是为中层和高层领导决策时，需要快速提供所需数据。一般常规决策用到的综合数据是已知的，这样可以预先计算好。

  * 临时计算轻度综合数据与高度综合数据，需要花费较多的计算时间，不能满足快速决策的要求。

*

  ### 5.对数据仓库的运行结构图，说明三层C/S结构与两层C/S结构的不同点。

  * 三层C/S结构中的OLAP层存放了OLAP工具，便利客户端调用这些工具，进行数据分析。

  * 两层C/S结构，客户端进行数据分析时，需要在客户端上装有OLAP工具。

  * 两层C/S结构客户端有很多个，每个客户端都装有OLAP工具，不如三层C/S结构中有个公用OLAP层，可以减少客户端的负担。

*

  ### 7.说明数据仓库的数据模型为什么含时间维数据。

  * 数据库中一般没有"时间"属性，是因为数据库中数据都属于当前数据。

    * 当时间变化时，数据库中数据需要更新，总保持数据属于当前状态。

    * 例如，学生数据库，当学生毕业了就要删除这些学生的数据。当新学生入学时，就要增加这些新学生的数据。

  * 在数据仓库中，既有当前状态的数据（当前基本数据层），还有历史基本数据层。

    * 这些历史数据必须要有"时间"属性，需用其预测未来。 预测时，需要建立一个随时间变化的曲线，用其延长线预测未来。

复制代码

## 第三章 OLAP （On Line Analytical Processing）

*

  ### 2.OLAP准则中有哪些内容？

  * OLAP的对象是数据仓库，帮助数据仓库进行有效的决策。

  * 12条准则，其主要的准则有以下四条：

    * （1）多维数据分析；

    * （2）客户/服务器结构；

    * （3）多用户支持；

    * （4）一致的报表性能等。

*

  ### 4.多维数据在平面上显示采取哪些方法？

  * 1.多维类型结构表示所有维成员

    * 每个维用一条线段来表示。维中的每个成员都用线段上的一个单位区间来表示。

  * 2.多维数据的分析视图

    * 即压缩维的成员个数。

    * 如一个维只取一个成员，另一个维只取少数几个成员，对关键维的数据显示出来。

*

  ### 6.说明OLAP的多维数据分析的切片操作的目的。

  * "降维"的过程

    * 在多维数据中选择所需要的二维数据进行切片取出。

  * 从这二维数据中，找出相关的数据进行比较，从中发现问题。

    * 例如，在三维数据（地区、时间、产品、销售额）中，选定广州地区进行切片，只剩下二维（时间、产品）中的销售额。可以看出在不同时间上，不同产品（电视机、电冰箱......)的销售额情况。查看最大值和最小值都发生在什么时间、什么产品上。为销售制订生产计划。

*

  ### 7.说明OLAP的多维数据分析的钻取功能的目的。

  * 维度的细分。

  * 从综合数据中进行比较中发现的问题，通过钻取到下层详细数据中找出原因。

    * 如在第4.3.1节航空公司数据仓库简例可知，在综合数据中发现"北京一西南地区总周转量出现最大的负增长"经过层层下钻，才发现问题出在"昆明航线两个机型产生的负增长最大"引起的。

复制代码

## 第四章 DW的决策支持

*

  ### 1.数据仓库的两类用户有什么本质不同？

  * 4.1.1 信息查询者 （业务层面）

    * 使用者

      * 是使用数据仓库的大量用户。

      * 通常查看概括数据或聚集数据，查看相同的商业维（如产品、客户、时间）和指标（如收入和成本）随时间的发展趋势。他们天天重复同样的活动，很少使用元数据。

    * 特点

      * 以一种可预测的、重发性的方式使用数据仓库平台。

    * 任务

      * 使用数据仓库能发现目前存在的问题。

  * 4.1.2 知识探索者 （分析决策）

    * 使用者

      * 典型的DM者。

      * 查看海量的详细数据，而概括数据则会妨碍知识探索者的数据分析。 经常查看历史数据，而且查看的历史数据的时间要比信息查询者长得多。

    * 特点

      * 有一个完全不可预测的、非重复性的数据使用模式。

    * 任务

      * 发现问题并找出原因。

      * 寻找公司数据内隐含的价值并且根据过去事件努力预测未来决策的结果。

*

  ### 2.聚集数据与聚类数据有什么不同？

  * 聚集数据是在统计意义下，对数据的聚集运算。聚集函数有sum（）、count（）、average()等，经过计算可以得到累加和、总数、平均数等统计数据。

  * 聚类数据是利用数据挖掘的聚类算法，对数据进行聚类，得到类别数据。聚类表明整个数据集中，包含了多少类别。相同类中的数据，彼此距离短；不同类间的数据，彼此距离长。

*

  ### 4.对4.2.2节中原因分析的实例，设计和画出决策支持系统结构图。

  * ![](https://file.jishuzhan.net/article/1778262899618222081/01d56ba9feded528c9738cccb8d3b5be.webp)

*

  ### 5.利用沃尔玛数据仓库系统说明数据仓库的价值。

  * 商品分组布局：沃尔玛的数据仓库系统可以帮助分析商品销售数据，并根据销售情况进行商品分组布局，包括确定哪些商品应该摆放在哪些位置，以及如何进行搭配销售，从而最大化销售额并提高顾客的购物体验。

  * 降低库存成本：通过数据仓库系统对销售数据进行分析，沃尔玛可以更准确地预测需求、控制库存水平，并及时调整采购计划，从而降低库存成本，并减少过剩或缺货的情况。

  * 了解销售全局：数据仓库系统帮助沃尔玛了解销售全局，包括不同商品类别的销售情况、顾客购买习惯以及销售渠道等信息，可以帮助制定更有效的销售策略和采购计划。

  * 市场分析：沃尔玛可以利用数据仓库系统进行市场分析，了解各个地区、不同门店的销售情况和趋势，从而更好地适应不同市场的需求，并制定地区性的营销策略。

  * 趋势分析：数据仓库系统可以帮助沃尔玛进行趋势分析，包括分析商品销售趋势、客户购买趋势以及市场发展趋势等，有助于及时调整经营策略，把握市场发展方向。

复制代码

## 第五章 DM原理

*

  ### 2.知识发现过程由哪3部分组成？每部分的工作是什么？

  * ![](https://file.jishuzhan.net/article/1778262899618222081/2cc3b6a4ee5cbb982ed1a3f4841b2ab3.webp)

  * 1．数据准备

    * 目标数据（Target Data），是根据用户的需要从原始数据库中选取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录等。数据转换的主要目的是完成数据类型转换。

    * 尽量消减数据维数或降维，以减少数据挖掘时要考虑的属性个数。

  * 2．数据挖掘

    * 确定挖掘的任务或目的，如数据分类、聚类、关联规则发现或序列模式发现等。

    * 确定了挖掘任务后，就要决定使用什么样的挖掘算法。

    * 实施数据挖掘算法，获取有用的模式。

  * 3．结果的评估

    * 获取的模式经过评估，可能存在冗余或无关的模式，这时需要将其剔除；也有可能模式不满足用户要求。

    * 把结果转换为用户易懂的另一种表示，如把分类决策树转换为"if ...then..."规则。

*

  ### 4.说明数据浓缩包括哪两方面？

  * 1、属性约简

    * 一般用于分类问题。

    * 在条件属性中删除那些不影响对决策属性进行分类的多余的属性。

  * 2、元组（记录）压缩

    * 实质上是对数据库的元组（记录）进行合并、归并和聚类等。

  * 旨在提高数据存储和处理的效率，并减少数据在存储和传输过程中所需的资源。

*

  ### 5.属性约简的原则是什么？

  * 保持数据库中分类关系不变。

    * 在削减属性的同时，要尽量保留分类或者聚类的特性，以确保数据分析和处理的准确性和有效性。

*

  ### 6.属性约简一般采用哪些方法？

  * 一般采用粗糙集（Rough Set）方法

    * 粗糙集理论是一种处理不确定性和近似性数据的数学工具

    * 识别和剔除在给定条件下冗余或无关的属性，从而实现对属性的有效约简。

  * 信息论方法。

    * 通过评估属性的信息增益或信息熵，判定不同属性对数据集的贡献，从而进行属性的约简和选择。

数据仓库与数据挖掘（第三版）陈文伟思维导图1-5章作业

第一章 概述

第一章概述