机器学习入门（五）聚类算法

前面介绍的线性回归、逻辑回归和决策树都是监督算法，这篇文章将介绍聚类算法，它是一个无监督的算法。

聚类算法会根据对象某些属性得相似度，将其自动划分为不同得类别。常用的聚类算法有 KMeans（K-均值） 、Mean-shift（均值漂移聚类算法） 、DBSCAN（基于密度的空间聚类算法）

KMeans（K-均值）

KMeans（K-均值）的算法流程：

效果如下图所示：

Mean-shift（均值漂移算法）的算法流程:

效果如下图所示：

DBSCAN 的算法流程：

寻找核心点形成临时聚类簇。扫描全部样本点，如果某个样本点R半径范围内点数目>=MinPoints，则将其纳入核心点列表，并将其密度直达的点形成对应的临时聚类簇。
合并临时聚类簇得到聚类簇。对于每一个临时聚类簇，检查其中的点是否为核心点，如果是，将该点对应的临时聚类簇和当前临时聚类簇合并，得到新的临时聚类簇。
重复2的操作，直到当前临时聚类簇中的每一个点要么不在核心点列表，要么其密度直达的点都已经在该临时聚类簇，该临时聚类簇升级成为聚类簇。继续对剩余的临时聚类簇进行相同的合并操作，直到全部临时聚类簇被处理。

效果如下图所示：

	KMeans（K-均值）	Mean-shift（均值漂移算法）	DBSCAN（基于密度的空间聚类算法）
特点	1. 实现简单，收敛快；2. 需要指定类别数量	1. 自动发现类别数量，不需要人工选择；2. 需要选择区域半径	1. 过滤噪声数据；2. 不需要人为选择类别数量；3. 数据密度不同时影响结果
缺点	1. 对初始点敏感，算法的输出可能会受到初始中心点选择的影响，这可能导致局部最优而非全局最优解；2. KMeans更适用于凸形状（例如圆形、球形）的集群，对于非凸形状（例如环形）的集群处理能力较差。	1. 缺乏模板更新机制。；2. 跟踪过程中窗口宽度保持不变，目标尺度变化时跟踪效果不佳；3. 目标速度较快时，跟踪效果不好	1. 不能很好反映高维数据。2. 该算法难以适应密度不均匀的数据集
应用场景	文档分类；客户分类	图形分割、目标跟踪	异常检测；图形处理