【非监督学习 | 聚类】聚类算法类别大全 & 距离度量单位大全

🤵‍♂️ 个人主页: @AI_magician

📡主页地址：作者简介：CSDN内容合伙人，全栈领域优质创作者。

👨‍💻景愿：旨在于能和更多的热爱计算机的伙伴一起成长！！🐱‍🏍

🙋‍♂️声明：本人目前大学就读于大二，研究兴趣方向人工智能&硬件（虽然硬件还没开始玩，但一直很感兴趣！希望大佬带带）

【深度学习 | 核心概念】那些深度学习路上必经的核心概念，确定不来看看？（一）作者：计算机魔术师版本： 1.0 （ 2023.8.27 ）

摘要：本系列旨在普及那些深度学习路上必经的核心概念，文章内容都是博主用心学习收集所写，欢迎大家三联支持！本系列会一直更新，核心概念系列会一直更新！欢迎大家订阅

该文章收录专栏
$✨--- [《深入解析机器学习：从原理到应用的全面指南》](https://blog.csdn.net/weixin_66526635/category_12216068.html) ---✨$

聚类算法

聚类算法是一种无监督学习的机器学习算法，用于将数据集中的样本划分为具有相特征的组或簇 。其目标划分的原则是组内(内部)距离最小化，而组间(外部)距离最大化。在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体，并且概括出每一类消费者的消费模式或消费习惯。同时，聚类分析也可以作为数据分析算法中其他分析算法的一个预处理步骤，如异常值识别、连续型特征离散化等。

以下是基于不同方法的算法类别表

算法类别	包括的主要算法	优缺点分析
划分（分裂）方法	K-Means算法（K-平均），K-MEDOIDS算法（K-中心点）和CLARANS算法（基于选择的算法）。	优点：简单且易于实现，对处理大数据集和高维数据具有良好的可扩展性。缺点：对初始聚类中心的选择敏感，可能收敛到局部最优解，对异常值和噪声敏感。
层次分析方法	BIRCH算法（平衡迭代规约和聚类），CURE算法（代表点聚类）和CHAMELEON算法（动态模型）。	优点：可以自动发现任意形状和大小的聚类，不需要预先指定聚类个数。缺点：对于大数据集，计算成本较高，可能受到噪声和异常点的干扰。
基于密度的方法	DBSCAN算法（基于高密度连接区域），DENCLUE算法（密度分布函数）和OPTICS算法（对象排序识别）。	优点：能够发现任意形状的聚类，对噪声和异常值具有较好的鲁棒性。缺点：对于高维数据和具有不同密度聚类的数据集效果较差，需要事先指定一些参数。
基于网格的方法	STING算法（统计信息网络），CLIOUE算法（聚类高维空间）和WAVE-CLUSTER算法（小波变换）。	优点：对于高维数据和大规模数据集有良好的可扩展性，能够处理不同形状和大小的聚类。缺点：对初始网格的选择敏感，可能受到数据分布的影响。

以下是常用的聚类算法，

聚类算法	模型所需参数	适用范围	距离度量	优缺点
K-means	簇的数量	数值型数据	欧几里德距离	优点：简单易实现，计算效率高；缺点：对初始聚类中心敏感，不适用于非凸形状的簇
层次聚类（Hierarchical Clustering）	距离或相似度的度量方法	数值型或类别型数据	可选多种距离度量方法，如欧几里德距离、曼哈顿距离等	优点：不需要预先指定簇的数量，可用于发现任意形状的簇；缺点：计算复杂度高，不适用于处理大规模数据
DBSCAN	邻域半径（epsilon）和最小邻域样本数（min_samples）	数值型或类别型数据	基于密度的距离度量	优点：能够发现任意形状的簇，对初始聚类中心不敏感；缺点：对参数的选择敏感，不适用于高维数据
密度聚类（Density-Based Clustering）	邻域密度阈值	数值型或类别型数据	基于密度的距离度量	优点：对噪声数据和离群点具有较好的鲁棒性；缺点：对参数的选择敏感
局部离群因子（Local Outlier Factor，LOF）	邻域大小（k）	数值型或类别型数据	基于密度的距离度量	优点：能够检测出离群点和数据集中的聚类结构；缺点：对数据集中的局部结构敏感
高斯混合模型（Gaussian Mixture Model，GMM）	簇的数量	数值型数据	基于概率模型的距离度量	优点：能够对数据进行软聚类，灵活性高；缺点：对初始聚类中心敏感，计算复杂度高

以下是常用的聚类中的距离度量算法及其介绍，以及相应的优缺点分析：

名称	介绍	优缺点分析
欧氏距离（Euclidean Distance）	欧氏距离是最常用的距离度量算法之一，它衡量两个向量之间的直线距离。在欧氏空间中，两个向量的欧氏距离等于它们各个维度差值的平方和的开方。	优点：简单直观，易于理解和计算。缺点：对异常值敏感，受维度灾难影响。
曼哈顿距离（Manhattan Distance）	曼哈顿距离衡量两个向量之间沿坐标轴的总距离。在二维空间中，曼哈顿距离等于两个点横坐标差的绝对值加上纵坐标差的绝对值。	优点：对异常值不敏感，适用于稀疏数据。缺点：不考虑维度之间的相关性。
切比雪夫距离（Chebyshev Distance）	切比雪夫距离是衡量两个向量之间的最大维度差值。在二维空间中，切比雪夫距离等于两个点横坐标差的最大绝对值和纵坐标差的最大绝对值中的较大值。	优点：对异常值不敏感，适用于稀疏数据。缺点：不考虑维度之间的相关性。
闵可夫斯基距离（Minkowski Distance）	闵可夫斯基距离是欧氏距离和曼哈顿距离的一种推广，它通过参数p来控制距离的计算方式。当p=1时，闵可夫斯基距离等同于曼哈顿距离；当p=2时，等同于欧氏距离。	优点：灵活性强，可以根据需求选择不同的参数p。缺点：对于参数p的选择较为敏感。
马氏距离（Mahalanobis Distance）	马氏距离考虑了数据集的协方差矩阵，通过将数据映射到一个空间中，使得在该空间中的欧氏距离与原始空间中的马氏距离等价。马氏距离可以解决特征之间的相关性和尺度不同的问题。	优点：考虑了特征之间的相关性，适用于高维数据。缺点：需要估计协方差矩阵，计算复杂度较高。
皮尔逊相关系数（Pearson Correlation Coefficient）	皮尔逊相关系数衡量两个向量之间的线性相关性。它的取值范围在-1到1之间，其中-1表示完全负相关，1表示完全正相关，0表示无相关性。	优点：可以衡量线性相关性，不受尺度变换影响。缺点：只能衡量线性相关性，对于非线性关系不敏感。
余弦相似度（Cosine Similarity）	余弦相似度衡量两个向量之间的夹角余弦。它通过计算两个向量的内积除以它们的模的乘积来衡量相似度。余弦相似度的取值范围在-1到1之间，其中1表示完全相似，-1表示完全相反，0表示无相似性。	优点：对于稀疏向量计算高效，不受维度灾难影响。缺点：不考虑维度之间的差异。

其中大部分算法都可以通过sklearn 库进行实现.

复制代码

						  🤞到这里，如果还有什么疑问🤞
					🎩欢迎私信博主问题哦，博主会尽自己能力为你解答疑惑的！🎩
					 	 🥳如果对你有帮助，你的赞是对博主最大的支持！！🥳