数据挖掘--引论

1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。

数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。

数据仓库是一个从多个数据源收集的信息存储库

OLAP的多维分析操作包括：钻取（Drill-down）、上卷（Roll-up）、切片（Slice）、切块（Dice）以及旋转（Pivot），下面还是以上面的数据立方体为例来逐一解释下：

钻取（Drill-down）：在维的不同层次间的变化，从上层降到下一层，或者说是将汇总数据拆分到更细节的数据。

比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据，如图；当然也可以钻取浙江省来查看杭州市、宁波市、温州市......这些城市的销售数据。

上卷（Roll-up）：钻取的逆操作，即从细粒度数据向高层的聚合。

如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据，如图。

切片（Slice）：选择维中特定的值进行分析，比如只选择电子产品的销售数据，或者2010年第二季度的数据。

切块（Dice）：选择维中特定区间的数据或者某批特定值进行分析，比如选择2010年第一季度到2010年第二季度的销售数据，或者是电子产品和日用品的销售数据。

旋转（Pivot）：即维的位置的互换，就像是二维表的行列转换，如图中通过旋转实现产品维和地域维的互换。

对同类的数据进行汇总，输出方式为饼图、条图等

将两个同一属性但不同值的对象进行比较

决策树、神经网络、相关分析

聚类是根据类内事物的相似性最大、类间事物的相似性最小的原则把数据对象进行聚类或分组

聚类与分类不同，它们的区别如下：

异常

数据挖掘的知识有三个重要问题需要回答：