数据仓库实验四：聚类分析实验

一、实验目的

通过本实验，进一步理解基于划分的、基于层次的、基于密度的聚类分析方法以及经典的聚类分析算法，并掌握利用 SQL Server 等工具平台进行聚类分析的方法，掌握挖掘结构、挖掘模型的基本概念，能够使用数据挖掘向导创建数据挖掘结构和模型，掌握数据挖掘设计器的使用方法，掌握模型查看器方法，理解聚类分析算法常用的参数含义和设置方法。

二、实验内容和要求

针对实际需求，构建格式规范的数据集，并能够借助于 SQL Server、Weka、SPSS 等工具平台，利用 K-means 等聚类分析算法进行聚类分析，正确分析实验结果，发现知识，完成实验报告。

三、实验步骤

以下是参照示例：以 SQL Server 作为工具，完成数据集的构建和聚类分析。------以下内容，仅供参考！

1、建立数据表

启动SQL Server，在DM数据库中建立一个Student表，其结构如下，并输入示例数据。

2、建立数据源视图

新建一个 Analysis Services 项目 ClusterMining。建立数据源视图，它对应DM数据库中的Student表。

3、建立挖掘结构Student.dmm

新建挖掘结构，在"创建数据挖掘结构"页面的"您要使用何种数据挖掘技术？"选项下，选中列表中的"Microsoft聚类分析"。

选择数据源视图为DM。

在"指定表类型"页面上，在Student表的对应行中选中"事例"复选框，并单击下一步按钮。

在"指定定型数据"页面中，将"学号"列设为键列，把其它所有列设为输入列。

在"创建测试集"页面上，"测试数据百分比"选项的默认值为30%，将该选项更改为0.

在完成向导页面的"挖掘结构名称"和"挖掘模型名称"中，都输入Student。

在"挖掘模型"选项卡中设置算法的参数如下图所示。

4、部署项目并浏览结果

先处理（部署）、再浏览。

在挖掘模型查看器中，浏览聚类分析的结果。

5、挖掘模型预测

（1）单击"挖掘模型预测"选项卡，再单击"选择输入表"对话框中的"选择事例表"命令，指定DM数据源视图中的Student表。

（2）保持默认的字段连接关系，将Student表中的各个列拖放到下方的列表中，选中最后一行下面的空白行字段前面的"源"，从下拉列表中选择"预测函数"选项，并设置字段为Cluster。

（3）在任一空白处右击，并在下拉菜单中选择"结果"，出现如下所示的分类结果。

四、实验结果分析

1、分类关系图

（1）所有链接

（2）最强链接

2、分类剖面图

3、分类特征

4、分类对比

（1）"分类1"VS"非分类1"

（2）"分类1"VS"分类2"

五、实验总结体会

通过数据挖掘聚类分析实验，积累了许多宝贵的经验。首先，我认识到对数据进行深入理解是取得成功的关键。在开始实验之前，我仔细分析了数据的结构、特征和可能存在的异常或缺失值等情况。这样的数据理解使我能够更好地选择合适的分析方法，并取得更好的结果。其次，在进行聚类分析之前，特征选择和预处理是不可或缺的步骤。通过特征选择，我能够提高模型的性能并降低计算复杂性。而预处理则可以使数据更加干净、一致，从而减少对聚类结果的影响。

选择合适的算法是成功实现聚类分析的重要因素。我研究了各种聚类算法，包括K均值、层次聚类和DBSCAN等。每种算法都有其适用的场景和限制，所以我根据实际情况选择了最合适的算法。这样做可以确保我的聚类结果更加准确和可靠。然后，我意识到结果的解释和评估是聚类分析中不可或缺的步骤。聚类分析的结果不仅仅是一组类别标签，更重要的是对这些类别的解释和理解。最后，我意识到持续学习和改进是取得优秀成绩的关键。数据仓库与数据挖掘是一个不断发展和变化的领域，需要不断学习新的方法和算法。通过不断尝试新的技术和流程，我能够不断优化实验流程，并取得更好的结果。

总的来说，进行数据仓库与数据挖掘的聚类分析实验是一个充满挑战但又充满乐趣的过程。通过深入理解数据、选择合适的算法、进行特征选择和预处理、解释和评估结果，以及持续学习和改进，我相信我能够不断提高我的数据分析技能，并在这个领域取得更出色的成果。