【机器学习】25. 聚类-DBSCAN(density base)

1. 介绍

DBSCAN -- Density-Based Spatial Clustering of Applications with Noise

与K-Means查找圆形簇相比，DBSCAN可以查找任意形状和复杂形状的簇，如S形、椭圆、半圆

适合处理带有噪声的复杂数据集. DBSCAN将高密度区域识别为一个簇, 并把低密度区域视为簇和簇之间的分割. 噪声点通常位于低密度区域, 被排除在簇之外.

不同于K-means只能找圆形的簇, DBSCAN能找任意复杂形状的簇, 如S形, 半圆形...

在给定的数据集中，根据每个数据点周围其他数据点的密度情况，将数据点分为核心点、边界点和噪声点。

接着，从核心点开始，通过密度相连的数据点不断扩张，形成一个簇。

一个点的密度取决于半径Eps. 如果:

Eps太大: 所有的点都会有一个较大的密度m，m是数据集中所有的点的数量

Eps太小: 所有的点的密度都等于1, 即只有一个自身

具体实现步骤为

Eps = 1

MinPts = 2

2.根据MinPts找到core point， border point 和noise point

Core point: A,B,D,E

border point: 0

noise point: C

不同的Eps和MinPts可能会对结果产生很大影响.

可以使用k-距离, k-dist来选取适当的Eps和MinPts.

计算每个点到第k个最近邻居的距离，属于某个cluster的点，k-dist会比较小，对与不属于任何cluster的点，如噪声点，则k-dist比较大。在这个图中，拐点是比较合适的。

在 k-距离图（k-distance graph）中，X 轴和 Y 轴表示以下内容：

X 轴（点的索引）：数据集中所有点按与其第 k 个最近邻的距离值从小到大排序后的索引。这些点可以按顺序编号，例如从 1 到数据集中点的总数。

Y 轴（k-距离）：每个点与其第 k 个最近邻的距离，通常记为 k-距离值。这个值表示该点到数据集中第 k 近邻点的距离。Y 轴的值越大，表示点的密度越低，反之则表示密度较高。

DBSCAN无法很好处理密度不同的cluster

优点:

缺点:

时间复杂度n^2

空间复杂度n