24/11/5 算法笔记 DBSCAN聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它能够在具有噪声的空间数据库中发现任意形状的簇。

DBSCAN密度聚类思想

DBSCAN的聚类定义很简单:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别,或者说一个簇。

这个DBSCAN的簇里面可以有一个或者多个核心对象。如果只有一个核心对象,则簇里其他的非核心对象样本都在这个核心对象的ϵ \epsilonϵ-邻域里;如果有多个核心对象,则簇里的任意一个核心对象的ϵ \epsilonϵ-邻域中一定有一个其他的核心对象,否则这两个核心对象无法密度可达。这些核心对象的ϵ \epsilonϵ-邻域里所有的样本的集合组成的一个D B S C A N DBSCANDBSCAN聚类簇。

那么怎么才能找到这样的簇样本集合呢?DBSCAN使用的方法很简单,它任意选择一个没有类别的核心对象作为种子,然后找到所有这个核心对象能够密度可达的样本集合,即为一个聚类簇。接着继续选择另一个没有类别的核心对象去寻找密度可达的样本集合,这样就得到另一个聚类簇。一直运行到所有核心对象都有类别为止。

下面是一个纯用python实现的DBSCAN算法:

import numpy as np

class DBSCAN:
    def __init__(self,eps,min_samples):
        self.eps = eps
        self.min_samples = min_samples

    def fit(self,x):
        self.labels_ = np.full(shape = x.shape[0],fill_value = -1,dtype = int)
#-1表示噪声点
        self.cluster_id_ = 0  #簇标志
        self.x_ = x
        
        for i in range(x.shape[0]):
            if self.labels_[i] != -1:
                continue
            self._expand_cluster(i)
    def _expand_cluster(self,point_idx):
        neighbours = self._region_query(self.x_[point_idx])
        if len(neighbors) < self.min_samples:
            self.labels_[point_idx] = -1  # 标记为噪声点
            return
        
        self.cluster_id_ += 1
        self.labels_[point_idx] = self.cluster_id_
        neighbors_queue = list(neighbors)

        while len(neighbors_queue) > 0:
            neighbor = neighbors_queue.pop(0) #取出邻居点
            if self.labels_[neighbor] == -1:   #检查邻居点的标签
                self.labels_[neighbor] = self.cluster_id_
            if len(self._region_query(self.X_[neighbor])) >= self.min_samples: #区域查询
                for next_neighbor in self._region_query(self.X_[neighbor]): #扩展邻居点
                    if self.labels_[next_neighbor] == -1:
                        self.labels_[next_neighbor] = self.cluster_id_
                        neighbors_queue.append(next_neighbor)


    def _region_query(self,point):#用于查找给定点 point 在指定半径 eps 内的邻居点的核心操作
        return np.where((self.x_ - point) @ (self.x_point)<(self.eps**2)[0]

    
    def get_labels(self):
        return self.labels_

    if __name__ == "__main__":
    np.random.seed(0)
    X = np.random.rand(100, 2)

    dbscan = DBSCAN(eps=0.3, min_samples=5)
    dbscan.fit(X)

    labels = dbscan.get_labels()

    import matplotlib.pyplot as plt

    plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis', marker='o', s=50)
    plt.title('DBSCAN Clustering')
    plt.show()

下面解释每段代码:

fit 方法

def fit(self, X):
    self.labels_ = np.full(shape=X.shape[0], fill_value=-1, dtype=int)  # -1 表示噪声点
    self.cluster_id_ = 0
    self.X_ = X

    for i in range(X.shape[0]):
        if self.labels_[i] != -1:
            continue
        self._expand_cluster(i)

fit 方法是 DBSCAN 算法的主要入口点,它初始化聚类标签数组 labels_,所有点最初都被标记为 -1(表示噪声点)。然后,它遍历每个点,如果点还没有被访问过(即标签仍然是 -1),则调用 _expand_cluster 方法来扩展以该点为中心的聚类。

_expand_cluster 方法

def _expand_cluster(self, point_idx):
    neighbors = self._region_query(self.X_[point_idx])
    if len(neighbors) < self.min_samples:
        self.labels_[point_idx] = -1  # 标记为噪声点
        return

    self.cluster_id_ += 1
    self.labels_[point_idx] = self.cluster_id_
    neighbors_queue = list(neighbors)

    while len(neighbors_queue) > 0:
        neighbor = neighbors_queue.pop(0)
        if self.labels_[neighbor] == -1:
            self.labels_[neighbor] = self.cluster_id_
        if len(self._region_query(self.X_[neighbor])) >= self.min_samples:
            for next_neighbor in self._region_query(self.X_[neighbor]):
                if self.labels_[next_neighbor] == -1:
                    self.labels_[next_neighbor] = self.cluster_id_
                    neighbors_queue.append(next_neighbor)

_expand_cluster 方法用于扩展聚类。它首先查询给定点的邻居,如果邻居数量少于 min_samples,则将该点标记为噪声点。否则,它将点标记为一个新的聚类,并将其邻居添加到队列中。然后,它迭代地处理邻居的邻居,直到队列为空。

_region_query 方法,(核心)

def _region_query(self, point):
    return np.where((self.X_ - point) @ (self.X_ - point) < self.eps**2)[0]

用于找到给定点在 eps 距离内的邻居点。它通过计算点与所有其他点之间的欧氏距离,并返回距离小于 eps 的点的索引。

get_labels 方法

def get_labels(self):
    return self.labels_

get_labels 方法返回聚类结果的标签数组

相关推荐
Komorebi.py25 分钟前
【Linux】-学习笔记05
linux·笔记·学习
不去幼儿园29 分钟前
【MARL】深入理解多智能体近端策略优化(MAPPO)算法与调参
人工智能·python·算法·机器学习·强化学习
Mr_Xuhhh31 分钟前
重生之我在学环境变量
linux·运维·服务器·前端·chrome·算法
亦枫Leonlew34 分钟前
微积分复习笔记 Calculus Volume 1 - 6.5 Physical Applications
笔记·数学·微积分
盼海2 小时前
排序算法(五)--归并排序
数据结构·算法·排序算法
网易独家音乐人Mike Zhou5 小时前
【卡尔曼滤波】数据预测Prediction观测器的理论推导及应用 C语言、Python实现(Kalman Filter)
c语言·python·单片机·物联网·算法·嵌入式·iot
冰帝海岸6 小时前
01-spring security认证笔记
java·笔记·spring
小二·7 小时前
java基础面试题笔记(基础篇)
java·笔记·python
Swift社区9 小时前
LeetCode - #139 单词拆分
算法·leetcode·职场和发展
Kent_J_Truman9 小时前
greater<>() 、less<>()及运算符 < 重载在排序和堆中的使用
算法