《机器学习》——聚类

聚类（Clustering）旨在将数据集中的样本分成若干个簇，使得同一个簇内的对象彼此相似，不同簇间的对象差异较大。

聚类的核心是"物以类聚"，具体通过以下步骤实现：

聚类应用场景：

K均值聚类（K-means）是基于样本集合划分的聚类方法，将样本集合划分为k个子集构成k个簇，将n个样本分到k个簇中，每个样本到其所属簇的中心的距离最小。每个样本只能属于一个簇，所以K均值聚类是硬聚类。

K均值聚类工作流程

K均值聚类特点

K均值聚类的初始中心的选择会直接影响聚类结果，并且不适合非凸形状簇。
K均值聚类需要事先指定簇个数k，而实际中最优的k值是不知道的，需要尝试使用不同的k值检验聚类结果质量，可以采用二分查找快速找到最优k值。聚类结果的质量可以用簇的平均直径来衡量，一般地，簇个数变小时平均直径会增加；簇个数变大超过某个值后平均直径会不变，而这个值正是最优的k值。

层次聚类（Hierarchical Clustering）假设簇之间存在层次结构，将样本聚到层次化的簇中。

聚合聚类：开始将每个样本各自分到一个簇，之后将相距最近的两个簇合并，如此往复直至满足停止条件（例如达到预设的簇的个数、每个簇只包含一个样本、簇内样本相似性达到某个阈值等）。

分裂聚类：开始将整个数据集视作一个整体，之后根据某种距离或相似性度量，选择一个现有的簇将其分裂成两个簇，使分裂后子簇内相似性高，子簇间差异大，如此往复直至满足停止条件。

密度聚类（Density-Based Clustering）假设聚类结构能通过样本分布的紧密程度确定。

由于聚类任务没有预定义的标签（不像监督学习有真实类别可供比较），所以需要依赖聚类结果和原始数据来衡量模型的好坏，主要关注簇内的紧凑性和簇间的分离性。

轮廓系数：计算每个样本到同簇其他样本的平均距离（内聚度a_i）和到最近其他簇样本的平均距离（分离度b_i)，综合评价聚类紧密度和分离度。s_i的值越接近1，聚类效果越好。总体轮廓系数是所有s_i的平均值。
簇内平方和：衡量簇内数据点到簇中心的总距离平方和，常用于K-means。
肘部法：肘部法用于确定最佳簇数K在使用K-means时非常常见，它通过绘制簇数k和某个聚类质量指标（通常是簇内平方和）的关系曲线，找到一个拐点或"肘部"，即增加簇数带来的收益显著减少的点，这个点通常被认为是最佳的k值。

奇异值分解（Singular Value Decomposition，SVD）是一种矩阵因子分解方法，用于将矩阵分解为更简单的形式，从而揭示数据的内在结构和特性。

通过保留最大的几个奇异值及其对应的奇异向量，可以近似重构原始矩阵，减少数据维度，同时保留主要信息。

主成分分析，潜在语义分析等都用到了奇异值分解。

主成分分析（Principal Component Analysis，PCA）是一种常用的无监督学习方法，旨在找到数据中"最重要的方向"，即方差最大的方向，并用这些方向重新表达数据。

在主成分分析过程中，首先将数据的每个特征规范化为平均值为0方差为1，以消除不同特征之间量纲的差异，再使用正交变换把线性相关的原始数据转换为线性无关的新数据（主成分）。

主成分彼此正交并且能够最大化地保留原始数据的方差信息。

主成分分析主要用于降维和发现数据的基本结构。