【机器学习】任务七：聚类算法（K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类）

1.基础知识

[1.1 K-Means 算法](#1.1 K-Means 算法)

[1.2 层次聚类（Hierarchical Clustering）](#1.2 层次聚类（Hierarchical Clustering）)

[1.3 密度聚类（DBSCAN）](#1.3 密度聚类（DBSCAN）)

[1.4 距离和相似度度量方法](#1.4 距离和相似度度量方法)

[1.5 总结：](#1.5 总结：)

[2.K-means 算法对鸢尾花（Iris）数据进行聚类](#2.K-means 算法对鸢尾花（Iris）数据进行聚类)

[2.1 导入所需的模块](#2.1 导入所需的模块)

[2.1.1 代码片段：](#2.1.1 代码片段：)

[2.1.2 实现目的：](#2.1.2 实现目的：)

[2.1.3 代码解释：](#2.1.3 代码解释：)

[2.2 加载并标准化鸢尾花数据集](#2.2 加载并标准化鸢尾花数据集)

[2.2.1 代码片段：](#2.2.1 代码片段：)

[2.2.2 实现目的：](#2.2.2 实现目的：)

[2.2.3 代码解释：](#2.2.3 代码解释：)

[2.3 使用"肘部法则"选择 K 值](#2.3 使用“肘部法则”选择 K 值)

[2.3.1 代码片段：](#2.3.1 代码片段：)

[2.3.2 实现目的：](#2.3.2 实现目的：)

[2.3.3 代码解释：](#2.3.3 代码解释：)

[2.4 使用选择后的 K 值初始化分类器](#2.4 使用选择后的 K 值初始化分类器)

[2.4.1 代码片段：](#2.4.1 代码片段：)

[2.4.2 实现目的：](#2.4.2 实现目的：)

[2.4.3 代码解释：](#2.4.3 代码解释：)

[2.5 绘制聚类结果](#2.5 绘制聚类结果)

[2.5.1 代码片段：](#2.5.1 代码片段：)

[2.5.2 实现目的：](#2.5.2 实现目的：)

[2.5.3 代码解释：](#2.5.3 代码解释：)

[2.6 评价模型](#2.6 评价模型)

[2.6.1 代码片段：](#2.6.1 代码片段：)

[2.6.2 实现目的：](#2.6.2 实现目的：)

[2.6.3 代码解释：](#2.6.3 代码解释：)

3.层次聚类对鸢尾花样本数据进行聚类

[3.1 导入所需的模块](#3.1 导入所需的模块)

[3.1.1 代码片段：](#3.1.1 代码片段：)

[3.1.2 实现目的：](#3.1.2 实现目的：)

[3.1.3 代码解释：](#3.1.3 代码解释：)

[3.2 加载鸢尾花数据并标准化](#3.2 加载鸢尾花数据并标准化)

[3.2.1 代码片段：](#3.2.1 代码片段：)

[3.2.2 实现目的：](#3.2.2 实现目的：)

[3.2.3 代码解释：](#3.2.3 代码解释：)

[3.3 数据标准化](#3.3 数据标准化)

[3.3.1 代码片段：](#3.3.1 代码片段：)

[3.3.2 实现目的：](#3.3.2 实现目的：)

[3.3.3 代码解释：](#3.3.3 代码解释：)

[3.4 进行层次聚类](#3.4 进行层次聚类)

[3.4.1 代码片段：](#3.4.1 代码片段：)

[3.4.2 实现目的：](#3.4.2 实现目的：)

[3.4.3 代码解释：](#3.4.3 代码解释：)

[3.5 绘制树状图](#3.5 绘制树状图)

[3.5.1 代码片段：](#3.5.1 代码片段：)

[3.5.2 实现目的：](#3.5.2 实现目的：)

[3.5.3 代码解释：](#3.5.3 代码解释：)

[3.6 添加红色水平线和显示图像](#3.6 添加红色水平线和显示图像)

[3.6.1 代码片段：](#3.6.1 代码片段：)

[3.6.2 实现目的：](#3.6.2 实现目的：)

[3.6.3 代码解释：](#3.6.3 代码解释：)

总结

4.密度聚类对鸢尾花样本数据进行聚类

[4.1 导入所需的模块](#4.1 导入所需的模块)

[4.1.1 代码片段：](#4.1.1 代码片段：)

[4.1.2 实现目的：](#4.1.2 实现目的：)

[4.1.3 代码解释：](#4.1.3 代码解释：)

[4.2 加载鸢尾花数据并标准化](#4.2 加载鸢尾花数据并标准化)

[4.2.1 代码片段：](#4.2.1 代码片段：)

[4.2.2 实现目的：](#4.2.2 实现目的：)

[4.2.3 代码解释：](#4.2.3 代码解释：)

[4.3 数据标准化](#4.3 数据标准化)

[4.3.1 代码片段：](#4.3.1 代码片段：)

[4.3.2 实现目的：](#4.3.2 实现目的：)

[4.3.3 代码解释：](#4.3.3 代码解释：)

[4.4 执行 DBSCAN 聚类](#4.4 执行 DBSCAN 聚类)

[4.4.1 代码片段：](#4.4.1 代码片段：)

[4.4.2 实现目的：](#4.4.2 实现目的：)

[4.4.3 代码解释：](#4.4.3 代码解释：)

[4.5 绘制聚类结果](#4.5 绘制聚类结果)

[4.5.1 代码片段：](#4.5.1 代码片段：)

[4.5.2 实现目的：](#4.5.2 实现目的：)

[4.5.3 代码解释：](#4.5.3 代码解释：)

总结

[5. 总体代码与结果分析](#5. 总体代码与结果分析)

[5.1 K-means 算法对鸢尾花（Iris）数据进行聚类](#5.1 K-means 算法对鸢尾花（Iris）数据进行聚类)

[5.1.1 总体代码](#5.1.1 总体代码)

[5.1.2 运行结果](#5.1.2 运行结果)

[5.1.3 结果分析](#5.1.3 结果分析)

[5.2 层次聚类对鸢尾花样本数据进行聚类](#5.2 层次聚类对鸢尾花样本数据进行聚类)

[5.2.1 总体代码](#5.2.1 总体代码)

[5.2.2 运行结果](#5.2.2 运行结果)

[5.2.3 结果分析](#5.2.3 结果分析)

总结：

[5.3 密度聚类对鸢尾花样本数据进行聚类](#5.3 密度聚类对鸢尾花样本数据进行聚类)

[5.3.1 总体代码](#5.3.1 总体代码)

[5.3.2 运行结果](#5.3.2 运行结果)

[5.3.3 结果分析](#5.3.3 结果分析)

1.基础知识

1.1 K-Means 算法

定义：K-Means 是一种无监督学习算法，用于将数据集分成 K 个簇，簇内点尽可能相似，簇间点尽可能不同。通过反复计算簇中心和分配点到最近的簇中心来达到聚类效果。
用途：
- 客户细分：将客户按消费行为分组，如根据消费习惯、消费金额等分成高价值和低价值客户群体。
- 图像压缩：通过聚类减少像素颜色的种类，压缩图像。
- 文档分类：基于文档特征（如词频）将文档分成不同主题类别。
适用场景 ：
- 数据集较大时能快速聚类。
- 数据的簇形状接近球形，适合分布规则的数据集。
- 不适合簇形状不规则的复杂数据集。

1.2 层次聚类（Hierarchical Clustering）

定义：层次聚类基于构建层次结构分组数据，分为凝聚式（自下而上）和分裂式（自上而下）。凝聚式将每个点视为一个簇，逐步将最近的簇合并，分裂式则从一个大簇开始，不断细分。
用途：
- 基因表达分析：分析基因的表达模式，构建基因树或分类模型。
- 市场细分：通过层次化分割市场，找到小而精确的目标客户群体。
- 图像分类：构建图像分类树，分析不同类别的层次关系。
适用场景 ：
- 适用于小规模数据集或希望得到层次结构的聚类结果。
- 当需要对数据进行层次结构的可视化展示时（例如树状图）。
- 计算量较大，通常不适用于非常大的数据集。

1.3 密度聚类（DBSCAN）

定义：DBSCAN 基于密度来聚类数据，识别密度高的区域为簇，稀疏区域为噪声点。它可以发现任意形状的簇，无需指定簇的数量。
用途：
- 地理空间数据分析：可用于分析具有空间坐标的数据，如建筑物分布、人口密度等。
- 异常检测：识别噪声和异常点，如信用卡欺诈检测和网络入侵检测。
- 社交网络分析：发现社交网络中群体性高密度区域，分析社交群体的结构。
适用场景 ：
- 适用于含有噪声和形状不规则的簇，例如地理、空间数据库。
- 当簇的形状较复杂，且希望自动处理噪声点时效果较好。
- 对密度差异较大的簇不适用，并且对参数选择（邻域半径 ϵ\epsilonϵ 和最小样本数 MinPts）较敏感。

1.4 距离和相似度度量方法

定义：在聚类算法中，距离和相似度是衡量数据点之间关系的重要指标。选择合适的距离或相似度度量方法可以影响聚类结果的质量。
用途：
- 欧式距离：常用于几何上连续数值特征的距离计算，适合 K-Means 和层次聚类等需要计算几何距离的场景。
- 曼哈顿距离：适合分隔在网格结构上的点（例如城市街道间的距离计算）。
- 马氏距离：适合高维数据，能够考虑特征之间的相关性。
- 汉明距离：常用于字符串或序列数据间的差异比较（如基因序列分析）。
相似度度量 ：
- 余弦相似度：用于度量两个向量的方向相似性，常用于文本数据或高维数据。
- 皮尔逊相关系数：用于度量两个变量之间的线性关系，常用于统计分析。

适用场景：

欧式距离：适用于几何形状规则的数据，尤其是平面或多维空间中的数据。
曼哈顿距离：适用于数据分布呈网格状或有明确方向的情况。
马氏距离：适用于高维数据集，数据具有相关性时表现优越。
汉明距离：适用于二进制向量、字符串或基因序列比对，主要应用于计算离散数据的相似度。

1.5 总结：

K-Means：适合规则分布的大规模数据，快速聚类。
层次聚类：适合小规模数据和需要层次结构的场景，如基因分析或市场细分。
DBSCAN：适合处理复杂形状簇和含有噪声的数据，如地理空间数据或异常检测。
距离和相似度度量：用于选择合适的距离度量方式，根据数据的特征进行优化选择。

这些算法在不同的应用场景中表现各异，建议根据数据特点选择合适的算法。如果有其他问题或需要深入探讨，可以随时提问！

2.K-means 算法对鸢尾花（Iris）数据进行聚类

2.1 导入所需的模块

2.1.1 代码片段：

python 复制代码

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

2.1.2 实现目的：

导入必要的库，用于数据加载、标准化处理、执行聚类算法以及绘图。

2.1.3 代码解释：

import matplotlib.pyplot as plt：导入 matplotlib 库中的 pyplot 模块，并将其命名为 plt，用于后续的可视化操作。pyplot 是 matplotlib 中的一个子模块，它提供了一组类似 MATLAB 风格的命令，用于创建图形、控制图形元素等。
from sklearn.datasets import load_iris：从 sklearn.datasets 中导入 load_iris 函数，用于加载经典的鸢尾花数据集。load_iris() 会返回一个类似字典的对象，包含特征数据、目标标签以及数据描述。
from sklearn.cluster import KMeans：从 sklearn.cluster 模块中导入 KMeans 类，K-Means 是一种常用的无监督聚类算法，用于将数据集分成预定义数量的簇。K-Means 会将数据分配到不同的簇，使得簇内数据相似度最大，簇间数据相似度最小。
from sklearn.preprocessing import StandardScaler：从 sklearn.preprocessing 模块中导入 StandardScaler 类，用于对特征数据进行标准化。标准化的作用是使每个特征的数据均值为 0，标准差为 1，从而消除特征之间由于不同尺度带来的影响。

2.2 加载并标准化鸢尾花数据集

2.2.1 代码片段：

python 复制代码

iris = load_iris()
X = iris.data  # 特征数据
y = iris.target  # 实际标签（用于后续比较）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

2.2.2 实现目的：

加载鸢尾花数据集，并对数据进行标准化处理，使特征在同一尺度下便于进行聚类分析。

2.2.3 代码解释：

iris = load_iris()：通过 load_iris() 函数加载鸢尾花数据集，并将其保存到变量 iris 中。该数据集是一个包含 150 条样本的数据集，每个样本有 4 个特征，并且分为 3 个类别（Setosa, Versicolor, Virginica）。
X = iris.data：从 iris 数据集中提取特征数据，并赋值给变量 X。X 是一个 150 x 4 的数组，表示 150 个样本的 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。
y = iris.target：从 iris 数据集中提取目标标签，即每个样本所属的类别（0 表示 Setosa，1 表示 Versicolor，2 表示 Virginica）。这些标签将用于后续比较和评估聚类结果。
scaler = StandardScaler()：创建一个 StandardScaler 对象 scaler，用于对特征数据进行标准化。标准化是将数据转换为均值为 0，标准差为 1 的标准正态分布，以消除特征尺度不同对模型的影响。
X_scaled = scaler.fit_transform(X)：使用 scaler 对 X 中的数据进行标准化。fit_transform() 方法首先计算每个特征的均值和标准差，然后对数据进行标准化。标准化后的数据存储在 X_scaled 中，用于后续的聚类分析。

2.3 使用"肘部法则"选择 K 值

2.3.1 代码片段：

python 复制代码

inertia = []
K_range = range(1, 11)
for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)

plt.figure(figsize=(8, 4))
plt.plot(K_range, inertia, marker='o')
plt.title('Elbow Method for Optimal K')
plt.xlabel('Number of clusters (K)')
plt.ylabel('Inertia')
plt.grid()
plt.show()

2.3.2 实现目的：

使用肘部法则通过观察簇内误差平方和 (inertia) 的变化，确定 K-Means 聚类中最合适的簇数量 KKK。

2.3.3 代码解释：

inertia = []：创建一个空列表 inertia，用于保存不同 K 值对应的簇内误差平方和 (inertia) 值。inertia 越小，表示簇内的数据点之间越紧密。
K_range = range(1, 11)：定义一个 K 值的范围，这里从 1 到 10。我们将尝试使用 1 到 10 个簇进行聚类，后续分析每个 K 值对应的聚类效果。
for k in K_range:：开始一个循环，遍历 K_range 中的每个 K 值，依次训练 K-Means 模型。
kmeans = KMeans(n_clusters=k, random_state=42)：为每个 K 值创建一个 K-Means 模型对象。n_clusters=k 表示簇的数量为当前的 K，random_state=42 是用于确保结果可复现的随机种子。
kmeans.fit(X_scaled)：使用 fit() 方法对标准化后的数据 X_scaled 进行训练，模型将找到 K 个簇的中心点，并将数据点分配到离其最近的中心点。
inertia.append(kmeans.inertia_)：训练完成后，提取当前模型的簇内误差平方和（kmeans.inertia_），并将其添加到 inertia 列表中。inertia_ 衡量了所有数据点到其最近的簇中心的距离和，是衡量聚类效果的指标。
plt.figure(figsize=(8, 4))：创建一个大小为 8x4 英寸的绘图窗口，用于绘制肘部图。
plt.plot(K_range, inertia, marker='o')：绘制 K 值与 inertia 之间的关系图。横轴是 K 值，纵轴是簇内误差平方和，marker='o' 表示在每个数据点上绘制圆形标记。
plt.title('Elbow Method for Optimal K')：设置图表的标题为"肘部法则选择最优 K"。
plt.xlabel('Number of clusters (K)')：设置横轴标签为"簇的数量 (K)"。
plt.ylabel('Inertia')：设置纵轴标签为"簇内误差平方和 (Inertia)"。
plt.grid()：启用网格显示，便于观察数据变化。
plt.show()：显示绘制的肘部法则图。通常在图中找到"肘部"位置（即曲线开始变平的点）可以帮助我们选择最优的 K 值。

2.4 使用选择后的 K 值初始化分类器

2.4.1 代码片段：

python 复制代码

k = 3
kmeans = KMeans(n_clusters=k, random_state=42)
y_kmeans = kmeans.fit_predict(X_scaled)

2.4.2 实现目的：

根据肘部法则确定的最佳 K 值，初始化 K-Means 模型并进行聚类分析。

2.4.3 代码解释：

k = 3：根据之前的肘部法则图，选择最佳 K 值为 3，表示我们将数据分成 3 个簇。
kmeans = KMeans(n_clusters=k, random_state=42)：创建一个 K-Means 聚类模型，n_clusters=3 表示模型将数据划分为 3 个簇。random_state=42 确保结果的可复现性。
y_kmeans = kmeans.fit_predict(X_scaled)：使用 fit_predict() 方法对标准化后的数据 X_scaled 进行聚类：

fit() 部分对数据进行训练，找到聚类中心。
predict() 部分根据聚类结果为每个数据点分配一个簇标签。y_kmeans 保存了每个数据点的簇标签（0, 1, 2），表示该点所属的簇。

2.5 绘制聚类结果

2.5.1 代码片段：

python 复制代码

plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[y_kmeans == 0, 0], X_scaled[y_kmeans == 0, 1], s=100, c='red', label='Cluster 1')
plt.scatter(X_scaled[y_kmeans == 1, 0], X_scaled[y_kmeans == 1, 1], s=100, c='blue', label='Cluster 2')
plt.scatter(X_scaled[y_kmeans == 2, 0], X_scaled[y_kmeans == 2, 1], s=100, c='green', label='Cluster 3')

# 绘制聚类中心
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='yellow', label='Centroids')
plt.title('K-means Clustering of Iris Data')
plt.xlabel('Feature 1 (scaled)')
plt.ylabel('Feature 2 (scaled)')
plt.legend()
plt.grid()
plt.show()

2.5.2 实现目的：

通过散点图显示每个簇的聚类结果，并展示 K-Means 模型中计算得到的聚类中心。

2.5.3 代码解释：

plt.figure(figsize=(8, 6))：创建一个大小为 8x6 英寸的图形窗口，准备绘制聚类结果。
plt.scatter(X_scaled[y_kmeans == 0, 0], X_scaled[y_kmeans == 0, 1], s=100, c='red', label='Cluster 1')：
- 使用 plt.scatter() 绘制属于第 0 簇的数据点。
- X_scaled[y_kmeans == 0, 0] 选取所有第 0 簇数据点的第一个特征（横坐标）。
- X_scaled[y_kmeans == 0, 1] 选取所有第 0 簇数据点的第二个特征（纵坐标）。
- s=100 设置数据点的大小为 100。
- c='red' 设置数据点的颜色为红色，label='Cluster 1' 为该簇添加标签（将用于图例）。
plt.scatter(X_scaled[y_kmeans == 1, 0], X_scaled[y_kmeans == 1, 1], s=100, c='blue', label='Cluster 2')：
- 同理，绘制属于第 1 簇的数据点，颜色为蓝色。
plt.scatter(X_scaled[y_kmeans == 2, 0], X_scaled[y_kmeans == 2, 1], s=100, c='green', label='Cluster 3')：
- 同理，绘制属于第 2 簇的数据点，颜色为绿色。
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='yellow', label='Centroids')：
- 使用 plt.scatter() 绘制聚类中心点，大小设置为 300。
- kmeans.cluster_centers_[:, 0] 表示所有簇中心的第一个特征值。
- kmeans.cluster_centers_[:, 1] 表示所有簇中心的第二个特征值。
- 颜色设置为黄色，标签为 Centroids，用于标识簇中心点。
plt.title('K-means Clustering of Iris Data')：为图表设置标题为"K-means 聚类鸢尾花数据"。
plt.xlabel('Feature 1 (scaled)')：设置横轴的标签为"特征 1（标准化后）"，代表第一个特征。
plt.ylabel('Feature 2 (scaled)')：设置纵轴的标签为"特征 2（标准化后）"，代表第二个特征。
plt.legend()：显示图例，说明不同颜色代表的簇。
plt.grid()：启用网格，方便观察数据的分布。
plt.show()：显示绘制的散点图，展示 3 个簇的数据点分布及其中心。

2.6 评价模型

2.6.1 代码片段：

python 复制代码

import seaborn as sns
from sklearn.metrics import confusion_matrix

confusion_mat = confusion_matrix(y, y_kmeans)
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_mat, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Cluster 0', 'Cluster 1', 'Cluster 2'],
            yticklabels=['Class 0', 'Class 1', 'Class 2'])
plt.title('Confusion Matrix')
plt.xlabel('Predicted Clusters')
plt.ylabel('True Classes')
plt.show()

2.6.2 实现目的：

通过绘制混淆矩阵评估 K-Means 聚类的效果，比较聚类标签与真实标签之间的对应关系。

2.6.3 代码解释：

import seaborn as sns：导入 seaborn 库，seaborn 是一个高级数据可视化库，基于 matplotlib，提供了更美观和简洁的绘图接口。
from sklearn.metrics import confusion_matrix：从 sklearn.metrics 模块中导入 confusion_matrix 函数，用于计算混淆矩阵。混淆矩阵是用于评估分类模型性能的表格，行表示实际类别，列表示预测类别。
confusion_mat = confusion_matrix(y, y_kmeans)：
- 使用 confusion_matrix() 函数生成混淆矩阵。
- y 是真实类别标签，y_kmeans 是聚类后的标签。
- 该函数将返回一个矩阵，矩阵中的值表示每个类别中真实标签与预测标签的匹配情况。
plt.figure(figsize=(8, 6))：创建一个大小为 8x6 英寸的图形窗口，准备绘制混淆矩阵。
sns.heatmap(confusion_mat, annot=True, fmt='d', cmap='Blues', xticklabels=['Cluster 0', 'Cluster 1', 'Cluster 2'], yticklabels=['Class 0', 'Class 1', 'Class 2'])：
- 使用 sns.heatmap() 函数绘制混淆矩阵的热图。
- confusion_mat 是混淆矩阵数据源。
- annot=True 表示在每个单元格内显示具体的数值。
- fmt='d' 指定数值以整数格式显示。
- cmap='Blues' 指定热图的颜色映射为蓝色渐变。
- xticklabels=['Cluster 0', 'Cluster 1', 'Cluster 2'] 和 yticklabels=['Class 0', 'Class 1', 'Class 2'] 分别为横轴和纵轴设置标签，表示聚类簇与真实类别的对应关系。
plt.title('Confusion Matrix')：设置图的标题为"混淆矩阵"。
plt.xlabel('Predicted Clusters')：设置横轴的标签为"预测簇"，表示 K-Means 聚类的结果。
plt.ylabel('True Classes')：设置纵轴的标签为"真实类别"，表示鸢尾花的实际类别。
plt.show()：显示绘制的热图。通过观察混淆矩阵，可以评估 K-Means 聚类的准确性，特别是它与真实类别标签的对应关系。

3.层次聚类对鸢尾花样本数据进行聚类

3.1 导入所需的模块

3.1.1 代码片段：

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.preprocessing import StandardScaler

3.1.2 实现目的：

导入必要的库，用于数据加载、标准化处理、层次聚类和可视化树状图。

3.1.3 代码解释：

import numpy as np：导入 numpy 库，numpy 是 Python 中的基础科学计算库，支持多维数组和矩阵运算，虽然在这段代码中没有直接使用，但它通常是机器学习数据处理的基础库。
import matplotlib.pyplot as plt：导入 matplotlib 库中的 pyplot 模块，用于绘制图形和数据可视化，并将其命名为 plt。
from sklearn.datasets import load_iris：从 sklearn.datasets 中导入 load_iris 函数，用于加载鸢尾花数据集，方便进行聚类分析。
from scipy.cluster.hierarchy import dendrogram, linkage：
- dendrogram 用于绘制层次聚类的树状图（即"树形图"）。
- linkage 是层次聚类的核心函数，它根据不同的聚类方法（如 ward、single、complete）计算聚类。
from sklearn.preprocessing import StandardScaler：从 sklearn.preprocessing 中导入 StandardScaler 类，用于对特征数据进行标准化，使其均值为 0，标准差为 1，消除特征之间的尺度差异。

3.2 加载鸢尾花数据并标准化

3.2.1 代码片段：

python 复制代码

iris = load_iris()
data = iris.data

3.2.2 实现目的：

加载鸢尾花数据集，并提取特征数据用于后续的聚类操作。

3.2.3 代码解释：

iris = load_iris()：使用 load_iris() 函数加载鸢尾花数据集。鸢尾花数据集包含 150 个样本，每个样本有 4 个特征，并分为 3 类（Setosa、Versicolor、Virginica）。
data = iris.data：提取数据集中的特征数据，存储在 data 中。这个数组的大小是 (150, 4)，表示 150 个样本的 4 个特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度。

3.3 数据标准化

3.3.1 代码片段：

python 复制代码

scaler = StandardScaler()
data_std = scaler.fit_transform(data)

3.3.2 实现目的：

对特征数据进行标准化处理，使其均值为 0，标准差为 1，消除不同特征之间的尺度差异。

3.3.3 代码解释：

scaler = StandardScaler()：创建一个 StandardScaler 对象 scaler，用于后续的标准化处理。
data_std = scaler.fit_transform(data)：
- fit_transform() 方法对数据进行标准化。首先计算特征的均值和标准差，然后将数据转换为标准化形式（即均值为 0，标准差为 1）。
- data_std 是标准化后的数据，用于后续的层次聚类。

3.4 进行层次聚类

3.4.1 代码片段：

python 复制代码

linked = linkage(data_std, 'ward')

3.4.2 实现目的：

使用层次聚类算法对标准化后的数据进行聚类。

3.4.3 代码解释：

linked = linkage(data_std, 'ward')：
- linkage() 函数用于执行层次聚类，data_std 是经过标准化的数据。
- 'ward' 是一种聚类方法，称为"Ward 最小方差法"，它通过最小化方差来选择合并簇的方式，具有良好的聚类效果，常用于层次聚类。
- linked 是聚类结果，包含了一系列数据点之间的聚类关系，用于后续绘制树状图。

3.5 绘制树状图

3.5.1 代码片段：

python 复制代码

plt.figure(figsize=(10, 7))
dendrogram(linked,
            orientation='top',
            labels=iris.target,
            distance_sort='descending',
            show_leaf_counts=True)

3.5.2 实现目的：

通过树状图展示层次聚类的结果，显示每个数据点的合并顺序和距离。

3.5.3 代码解释：

plt.figure(figsize=(10, 7))：创建一个大小为 10x7 英寸的图形窗口，准备绘制树状图。
dendrogram(linked, orientation='top', labels=iris.target, distance_sort='descending', show_leaf_counts=True)：
- dendrogram() 函数用于绘制树状图：
  - linked 是之前通过 linkage() 计算得到的聚类关系结果。
  - orientation='top' 表示将树状图的树顶置于上方，分支从上到下展开。
  - labels=iris.target：使用真实的类别标签（iris.target）作为树叶节点的标签。
  - distance_sort='descending'：按距离降序排列聚类分支，距离越大的簇优先绘制。
  - show_leaf_counts=True：显示每个簇中的叶子节点数量，即该簇中的样本数量。

3.6 添加红色水平线和显示图像

3.6.1 代码片段：

python 复制代码

plt.axhline(y=10, color='r', linestyle='--')
plt.show()

3.6.2 实现目的：

在树状图上添加一条水平的参考线，并显示最终的图像。

3.6.3 代码解释：

plt.axhline(y=10, color='r', linestyle='--')：
- plt.axhline() 用于在图形中添加水平线。
- y=10 指定水平线的纵坐标为 10，表示我们可以选择在此距离处切割树状图，确定簇的数量。
- color='r' 指定水平线的颜色为红色，linestyle='--' 设置线条为虚线。
plt.show()：显示绘制好的树状图。通过观察树状图及其水平线，可以选择在不同的高度切割树状图，以确定不同的簇数量。

总结

这段代码实现了对鸢尾花数据集的层次聚类，并通过树状图可视化了数据点的合并过程。
树状图的水平线可以帮助我们在特定距离处进行切割，从而确定适合的聚类簇数。

4.密度聚类对鸢尾花样本数据进行聚类

4.1 导入所需的模块

4.1.1 代码片段：

python 复制代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

4.1.2 实现目的：

导入必要的库，用于数据加载、标准化处理、执行 DBSCAN 密度聚类以及可视化聚类结果。

4.1.3 代码解释：

import numpy as np：导入 numpy 库，numpy 是用于科学计算的库，提供强大的多维数组处理能力，虽然在这段代码中没有直接使用，但 numpy 通常在数据处理和机器学习中被广泛应用。
import matplotlib.pyplot as plt：导入 matplotlib 库中的 pyplot 模块，用于绘制图形和数据可视化，命名为 plt。
from sklearn.datasets import load_iris：从 sklearn.datasets 中导入 load_iris 函数，用于加载经典的鸢尾花数据集。
from sklearn.cluster import DBSCAN：从 sklearn.cluster 中导入 DBSCAN 类，用于执行 DBSCAN 聚类算法。DBSCAN 是基于密度的聚类方法，能够识别任意形状的簇，并且对噪声和异常值具有很好的鲁棒性。
from sklearn.preprocessing import StandardScaler：从 sklearn.preprocessing 中导入 StandardScaler 类，用于标准化特征数据，消除特征尺度的影响。

4.2 加载鸢尾花数据并标准化

4.2.1 代码片段：

python 复制代码

iris = load_iris()
data = iris.data

4.2.2 实现目的：

加载鸢尾花数据集，并提取特征数据用于后续的聚类分析。

4.2.3 代码解释：

iris = load_iris()：使用 load_iris() 函数加载鸢尾花数据集。该数据集包含 150 条样本，每条样本有 4 个特征（花萼长度、花萼宽度、花瓣长度、花瓣宽度）。
data = iris.data：从 iris 数据集中提取特征数据，并赋值给变量 data，这是一个 150 x 4 的数组，表示 150 个样本的 4 个特征。

4.3 数据标准化

4.3.1 代码片段：

python 复制代码

scaler = StandardScaler()
data_std = scaler.fit_transform(data)

4.3.2 实现目的：

对特征数据进行标准化处理，使其均值为 0，标准差为 1，消除不同特征之间的尺度差异。

4.3.3 代码解释：

scaler = StandardScaler()：创建一个 StandardScaler 对象 scaler，用于对数据进行标准化处理。
data_std = scaler.fit_transform(data)：
- 使用 fit_transform() 方法对 data 进行标准化。
- fit() 部分计算每个特征的均值和标准差。
- transform() 部分根据计算出的均值和标准差对数据进行缩放，结果存储在 data_std 中，这是标准化后的数据。

4.4 执行 DBSCAN 聚类

4.4.1 代码片段：

python 复制代码

dbscan = DBSCAN(eps=1, min_samples=5)
labels = dbscan.fit_predict(data_std)

4.4.2 实现目的：

使用 DBSCAN 聚类算法对标准化后的数据进行聚类，并生成每个样本的聚类标签。

4.4.3 代码解释：

1.dbscan = DBSCAN(eps=1, min_samples=5)：

创建一个 DBSCAN 模型对象 dbscan，其中 eps=1 和 min_samples=5 是该模型的两个主要参数。
- eps=1：定义邻域的半径，即两个样本如果在这个半径内就认为它们是密度相连的。
- min_samples=5：定义一个点成为核心点所需的最小邻域内点数。如果某个点的邻域中至少有 5 个点（包括自己），则该点被视为核心点。
DBSCAN 聚类算法通过计算样本之间的密度连接关系来识别簇，同时能够有效地处理噪声点。

2.labels = dbscan.fit_predict(data_std)：

fit_predict() 方法对标准化后的数据 data_std 进行训练和预测。
fit() 部分学习数据的密度分布，并确定每个样本的类别（即簇或噪声点）。
predict() 部分返回每个样本的聚类标签，存储在 labels 中。聚类标签为整数：正整数表示簇编号，-1 表示噪声点。

4.5 绘制聚类结果

4.5.1 代码片段：

python 复制代码

plt.scatter(data_std[:, 0], data_std[:, 1], c=labels, cmap='rainbow')
plt.title('DBSCAN Clustering')
plt.show()

4.5.2 实现目的：

通过二维散点图可视化 DBSCAN 聚类结果，展示每个样本所属的簇。

4.5.3 代码解释：

1.plt.scatter(data_std[:, 0], data_std[:, 1], c=labels, cmap='rainbow')：

使用 plt.scatter() 绘制二维散点图。
data_std[:, 0] 表示标准化后数据的第一个特征（用于横坐标）。
data_std[:, 1] 表示标准化后数据的第二个特征（用于纵坐标）。
c=labels：设置每个样本的颜色，根据 labels（即聚类标签）来着色。
cmap='rainbow'：使用 rainbow 颜色映射，将不同的聚类标签用不同的颜色表示。

2.plt.title('DBSCAN Clustering')：设置图表标题为"DBSCAN 聚类"。

3.plt.show()：显示绘制的散点图，展示聚类结果。每个不同颜色的点代表不同的簇，标签为 -1 的样本点将被标记为噪声点。

总结

这段代码使用 DBSCAN（基于密度的空间聚类算法）对鸢尾花数据集进行了聚类分析。
DBSCAN 能识别任意形状的簇，并且自动处理噪声点（离群点），相比于 K-Means 这种必须指定簇数量的算法，DBSCAN 更加灵活。
聚类结果通过二维散点图展示，每个簇用不同颜色标识，噪声点也被自动识别出来。

5. 总体代码与结果分析

5.1 K-means 算法对鸢尾花（Iris）数据进行聚类

5.1.1 总体代码

python 复制代码

# 第一步：导入所需的模块
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 第二步：加载并标准化鸢尾花数据集
iris = load_iris()
X = iris.data  # 特征数据
y = iris.target  # 实际标签（用于后续比较）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 第三步：使用"肘部法则"选择K值
inertia = []
K_range = range(1, 11)
for k in K_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertia.append(kmeans.inertia_)

# 绘制肘部图
plt.figure(figsize=(8, 4))
plt.plot(K_range, inertia, marker='o')
plt.title('Elbow Method for Optimal K')
plt.xlabel('Number of clusters (K)')
plt.ylabel('Inertia')
plt.grid()
plt.show()

# 第四步：使用选择后的K值初始化分类器
k = 3
kmeans = KMeans(n_clusters=k, random_state=42)
y_kmeans = kmeans.fit_predict(X_scaled)

# 第五步：绘制聚类结果
plt.figure(figsize=(8, 6))
plt.scatter(X_scaled[y_kmeans == 0, 0], X_scaled[y_kmeans == 0, 1], s=100, c='red', label='Cluster 1')
plt.scatter(X_scaled[y_kmeans == 1, 0], X_scaled[y_kmeans == 1, 1], s=100, c='blue', label='Cluster 2')
plt.scatter(X_scaled[y_kmeans == 2, 0], X_scaled[y_kmeans == 2, 1], s=100, c='green', label='Cluster 3')

# 绘制聚类中心
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='yellow', label='Centroids')
plt.title('K-means Clustering of Iris Data')
plt.xlabel('Feature 1 (scaled)')
plt.ylabel('Feature 2 (scaled)')
plt.legend()
plt.grid()
plt.show()

# 第六步：评价模型
import seaborn as sns
from sklearn.metrics import confusion_matrix

confusion_mat = confusion_matrix(y, y_kmeans)
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_mat, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Cluster 0', 'Cluster 1', 'Cluster 2'],
            yticklabels=['Class 0', 'Class 1', 'Class 2'])
plt.title('Confusion Matrix')
plt.xlabel('Predicted Clusters')
plt.ylabel('True Classes')
plt.show()

5.1.2 运行结果

5.1.3 结果分析

图 1：肘部法则（Elbow Method）

分析：
- 图中显示了 K 值从 1 到 10 对应的簇内误差平方和（Inertia）。簇内误差平方和越低，说明簇内的数据点距离簇中心越近，聚类效果越好。
- 从图中可以看到，在 K = 3 处，Inertia 下降明显变缓，形成一个肘部（Elbow）。这意味着选择 3 个簇是一个合适的选择，因为在此 K 值之后，增加簇的数量对簇内误差平方和的改善效果逐渐减小。
结论：根据肘部法则，K = 3 是最优的簇数量，因此选择 K=3 进行聚类。

图 2：K-means 聚类结果散点图

分析：
- 图中展示了鸢尾花数据集的前两个特征（经过标准化后）对应的聚类结果。每个点的颜色表示其所属的簇，红色、蓝色和绿色分别代表三个不同的簇，黄色圆点表示每个簇的聚类中心。
- 从图中可以看出，K-means 算法将数据分成了三个簇，并且每个簇内的样本在图中表现为比较密集的簇形状。这表明 K-means 对鸢尾花数据集的特征进行了较好的划分。
结论：K-means 对数据的三个簇的分布进行清晰划分，尽管在某些地方（如红色和绿色簇的交界处）有一定的重叠，但整体表现较好。

图 3：混淆矩阵（Confusion Matrix）

分析：
- 混淆矩阵显示了聚类标签与真实类别标签的匹配情况。矩阵中的每个值表示真实类别和聚类标签的数量对比。
- 横轴表示 K-means 聚类的预测结果，纵轴表示数据的真实类别。
- 可以看到，Cluster 0 完全没有匹配到真实的 Class 0，而是大量匹配到了 Class 1 和 Class 2。这表明 K-means 对鸢尾花的第一类分类效果较差。
- Cluster 1 主要匹配了 Class 0，但是也有一些样本错误匹配到 Cluster 2。
- Cluster 2 主要对应的是 Class 2 的数据，分类效果相对较好。
结论：K-means 对鸢尾花数据集的聚类效果不完全准确，尤其是在分类 Class 1 和 Class 2 时有较大的偏差。尽管聚类效果大体符合预期，但在实际应用中可能需要更精细的参数调整或采用其他算法（如 DBSCAN 或层次聚类）来提高聚类效果。

5.2 层次聚类对鸢尾花样本数据进行聚类

5.2.1 总体代码

python 复制代码

## 层次聚类

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.preprocessing import StandardScaler

# 加载鸢尾花数据
iris = load_iris()
data = iris.data

# 数据标准化
scaler = StandardScaler()
data_std = scaler.fit_transform(data)

# 使用层次聚类
linked = linkage(data_std, 'ward')

# 绘制树状图
plt.figure(figsize=(10, 7))
dendrogram(linked,
            orientation='top',
            labels=iris.target,
            distance_sort='descending',
            show_leaf_counts=True)
# 添加红色水平线
plt.axhline(y=10, color='r', linestyle='--')
plt.show()

5.2.2 运行结果

5.2.3 结果分析

树状图分析：

层次结构：
- 树状图展示了层次聚类的过程。最底层的叶节点代表原始的数据点，逐步向上合并，最终所有数据点聚合为一个簇。
- 水平线的高度表示簇合并时的距离。距离越大，说明合并的簇之间的相似性越低。
红色虚线：
- 红色的虚线（水平线）位于距离约为 10 的位置，表示在这个位置切割树状图，得到了几个不同的簇。
- 从图中可以看出，在这个切割线处，树状图被分割成了 3 个主要簇。这个簇数量与前面 K-means 聚类中选出的 3 个簇一致，说明这个切割位置是合理的。
簇的数量：
- 根据树状图，可以直观地看到数据如何逐步合并为不同的簇。在红色虚线的切割位置，可以看到较清晰的三个聚类分支（颜色不同的区域），这与 K-means 的结果一致。
聚类之间的距离：
- 水平线的长度代表了簇之间的合并距离。较长的水平线表示在该处合并的簇之间距离较远，说明它们的相似性较低。
- 从图中可以看到，最大的距离（最高的线）代表了最后一次合并的两个大簇，这说明这两个大簇之间的相似度相对较低。

总结：

从这张树状图中可以看出，层次聚类将数据逐渐聚合为簇，切割在红色虚线处时，我们得到了 3 个主要的簇。
这与之前使用肘部法则确定的 K 值（3 个簇）是一致的，进一步验证了数据的聚类结果。
如果你想要调整簇的数量，可以选择在树状图的其他高度切割，生成更多或更少的簇。

5.3 密度聚类对鸢尾花样本数据进行聚类

5.3.1 总体代码

python 复制代码

## DBSCAN密度聚类

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 加载鸢尾花数据
iris = load_iris()
data = iris.data

# 数据标准化
scaler = StandardScaler()
data_std = scaler.fit_transform(data)

# 使用DBSCAN聚类
dbscan = DBSCAN(eps=1, min_samples=5)
labels = dbscan.fit_predict(data_std)

# 绘制聚类结果
plt.scatter(data_std[:, 0], data_std[:, 1], c=labels, cmap='rainbow')
plt.title('DBSCAN Clustering')
plt.show()

5.3.2 运行结果

5.3.3 结果分析

图像分析：

红色和青色的点：
- 图中不同颜色的点代表不同的簇，DBSCAN 已经将数据分为了两个主要的簇：
  - 红色点表示其中一个簇。
  - 青色点表示另一个簇。
- DBSCAN 能够识别形状不规则的簇，适合处理非球形簇，且不需要预先指定簇的数量（与 K-means 不同）。
紫色的点：
- 紫色的点代表 噪声点（离群点）。DBSCAN 能够识别数据中的噪声，噪声点是那些无法归入任何簇的数据点。
- 这些点被 DBSCAN 标记为 -1（噪声标签），因为它们在定义的密度范围内没有足够的邻居点（即它们没有足够高的密度，或不在任何簇的核心区域内）。
密度参数的影响：
- DBSCAN 的两个关键参数是 eps（邻域半径）和 min_samples（最小样本数）。这张图是基于设置的 eps=1 和 min_samples=5 得到的结果。
- 这两个参数的选择非常重要，它们决定了哪些点会被认为是核心点、边界点或者噪声点。你可以调整这两个参数来尝试不同的聚类效果。

聚类效果评价：

簇的形状：
- DBSCAN 在此数据集上识别出了两个簇，且这两个簇的形状不规则，与之前 K-means 划分的球形簇不同。这展示了 DBSCAN 的强大之处，它能够发现任意形状的簇。
噪声点的检测：
- 在图中可以看到有一些数据点（紫色的点）被识别为噪声点。这些点可能是异常点，或者在当前参数下无法归入任何簇。
- DBSCAN 能够自然处理这种情况，而不像 K-means 那样必须将每个点分配到某个簇。

总结：

DBSCAN 成功将数据集分成了两个主要簇，并识别了一些噪声点。
它适用于这种含有异常点或者非规则形状簇的数据集，不需要事先确定簇的数量。
如果你想优化结果，可以通过调整 eps 和 min_samples 参数来改善聚类表现。

【机器学习】任务七：聚类算法 （K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类）

1.基础知识

1.1 K-Means 算法

1.2 层次聚类（Hierarchical Clustering）

1.3 密度聚类（DBSCAN）

1.4 距离和相似度度量方法

1.5 总结：

2.K-means 算法对鸢尾花（Iris）数据进行聚类

2.1 导入所需的模块

2.1.1 代码片段：

2.1.2 实现目的：

2.1.3 代码解释：

2.2 加载并标准化鸢尾花数据集

2.2.1 代码片段：

2.2.2 实现目的：

2.2.3 代码解释：

2.3 使用"肘部法则"选择 K 值

2.3.1 代码片段：

2.3.2 实现目的：

2.3.3 代码解释：

2.4 使用选择后的 K 值初始化分类器

2.4.1 代码片段：

2.4.2 实现目的：

2.4.3 代码解释：

2.5 绘制聚类结果

2.5.1 代码片段：

2.5.2 实现目的：

2.5.3 代码解释：

2.6 评价模型

2.6.1 代码片段：

2.6.2 实现目的：

2.6.3 代码解释：

3.层次聚类对鸢尾花样本数据进行聚类

3.1 导入所需的模块

3.1.1 代码片段：

3.1.2 实现目的：

3.1.3 代码解释：

3.2 加载鸢尾花数据并标准化

3.2.1 代码片段：

3.2.2 实现目的：

3.2.3 代码解释：

3.3 数据标准化

3.3.1 代码片段：

3.3.2 实现目的：

3.3.3 代码解释：

3.4 进行层次聚类

3.4.1 代码片段：

3.4.2 实现目的：

3.4.3 代码解释：

3.5 绘制树状图

3.5.1 代码片段：

3.5.2 实现目的：

3.5.3 代码解释：

3.6 添加红色水平线和显示图像

3.6.1 代码片段：

3.6.2 实现目的：

3.6.3 代码解释：

总结

4.密度聚类对鸢尾花样本数据进行聚类

4.1 导入所需的模块

4.1.1 代码片段：

4.1.2 实现目的：

4.1.3 代码解释：

4.2 加载鸢尾花数据并标准化

4.2.1 代码片段：

4.2.2 实现目的：

4.2.3 代码解释：

4.3 数据标准化

4.3.1 代码片段：

4.3.2 实现目的：

4.3.3 代码解释：

4.4 执行 DBSCAN 聚类

4.4.1 代码片段：

4.4.2 实现目的：

4.4.3 代码解释：

4.5 绘制聚类结果

4.5.1 代码片段：

4.5.2 实现目的：

4.5.3 代码解释：

总结

【机器学习】任务七：聚类算法（K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类）