模式识别和机器学习 | 第八章聚类

监督学习：分类、回归、排序

非监督学习：聚类、降维、概率密度估计

why引入非监督学习？

原始数据易获得，但标注数据昂贵；高维降噪；预处理步骤；降低存储/计算

聚类

数据分组聚集：根据数据中样本之间的距离或相似度，将样本划分为若干组/类/簇
划分原则：类内样本距离小、类间样本距离大
聚类的类型：基于划分的聚类（每个样本只属于一类）

层次划分（树形聚类，不同层次间存在嵌套）

簇的类型：

明显分离的簇 ( Well-separated clusters )
基于中心的簇 ( Center-based clusters )
基于邻近的簇 ( Contiguous-based clusters )
基于密度的簇 ( Density-based clusters ) 簇是高密度区域
基于概念的簇 ( Property or Conceptual )

聚类分析三要素：

使用相似性/距离函数 -> 远近

利用评价函数评估聚类结果

如何表示簇，划分和优化算法，算法何时停止

经典算法 : K-means 、GMM、DBSCAN、层次划分

K均值聚类（K-means）

K越大，损失越小

预处理：标准化数据、消除离群点

后处理：删除小的簇（离群点）、分裂松散的簇、合并距离近的簇

优点： 经典聚类算法简单、快速；

可处理大规模数据，可扩展性好；

分布接近高斯分布时**，效果好**

缺点：当簇具有不同的尺寸、密度、非球体 , K-means可能得不到理想的结果；
噪声/离群点影响大；
解决：使用更多的簇（K增大），几个小的表示真实的一个，基于密度
k-means -> k-median/medoids (均值-> 样本中值）
判断是否为k-means ：判别界面在两质心的连线的中垂线上