【第二章:机器学习与神经网络概述】01.聚类算法理论与实践-(3)DBSCAN 聚类算法

第二章: 机器学习与神经网络概述

第一部分：聚类算法理论与实践

第二节：DBSCAN 聚类算法（Density-Based Spatial Clustering of Applications with Noise）

内容：密度聚类原理、参数选择及边界点处理。

一、DBSCAN 简介

DBSCAN 是一种基于密度的聚类算法，不依赖于聚类数量的预设，能自动识别任意形状的簇，并能识别离群点（噪声）。它是处理噪声数据和不规则聚类结构的经典算法。

二、核心概念

ε 邻域（ε-neighborhood）

给定一个样本点 pp，以半径 ε 为范围画一个圆（或高维球体），该区域内的所有点称为 p 的 ε 邻域。
核心点（Core Point）

如果某点的 ε 邻域内至少包含 MinPts 个点（包括它自身），它就是核心点。
密度直达（Directly Density-Reachable）

如果点 q 在点 p 的 ε 邻域内，且 p 是核心点，则称 q 密度直达于 p。
密度可达（Density-Reachable）

若存在一个点序列，使得 , ，且序列中的点两两密度直达，则称 q 密度可达于 p。
边界点（Border Point）

自身不是核心点，但在某个核心点的 ε 邻域内的点。
噪声点（Noise Point）

既不是核心点，也不是任何核心点 ε 邻域内的点。

三、DBSCAN 聚类步骤

复制代码

输入：数据集 D，参数 ε 和 MinPts
输出：簇集合与噪声点

1. 对每个未访问的点 p：
   a. 标记为已访问；
   b. 获取 p 的 ε 邻域 N；
   c. 若 N 中点数 < MinPts，则标记为噪声；
   d. 否则，以 p 为核心点扩展新簇：
      - 将 N 中所有点加入簇；
      - 对每个新加入点 q：
        - 若 q 未访问，标记为已访问；
        - 若 q 的 ε 邻域中点数 ≥ MinPts，则将其邻域也加入当前簇。

四、参数选择

ε（邻域半径）：
- 太小：大部分点被当作噪声；
- 太大：不同簇可能合并。
- 通常使用 k-距离图 寻找拐点作为 ε 的经验值。
MinPts（最小密度）：
- 一般经验：MinPts ≥ 数据维度数 + 1；
- 通常在 4～10 之间调试。

五、优缺点

优点	缺点
自动决定簇数量	对参数 ε 和 MinPts 较敏感
可识别任意形状簇	高维数据中距离不再可靠（"维数灾难"）
可识别噪声点	核心点密度不均时效果差

六、示例代码（使用 `sklearn`）

python 复制代码

from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成数据
X, _ = make_moons(n_samples=300, noise=0.05)

# DBSCAN 聚类
db = DBSCAN(eps=0.2, min_samples=5)
labels = db.fit_predict(X)

# 可视化
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='rainbow')
plt.title("DBSCAN Clustering")
plt.show()

七、DBSCAN 关键图示建议

ε 邻域示意图：展示核心点、边界点、噪声点的空间分布。
聚类结果图：展示任意形状聚类结果。
k-距离图：帮助选取 ε。
算法流程图：以核心点扩展簇的过程。

总结

DBSCAN 是一种无需指定簇数、可识别任意形状聚类结构的密度聚类算法；
关键在于 ε 与 MinPts 参数选择；
与 K-means 相比，更适合有噪声、不规则形状的实际场景。

【第二章:机器学习与神经网络概述】01.聚类算法理论与实践-(3)DBSCAN 聚类算法

第二章: 机器学习与神经网络概述

第一部分：聚类算法理论与实践

第二节：DBSCAN 聚类算法（Density-Based Spatial Clustering of Applications with Noise）

一、DBSCAN 简介

二、核心概念

三、DBSCAN 聚类步骤

四、参数选择

五、优缺点

六、示例代码（使用 sklearn）

七、DBSCAN 关键图示建议

总结

六、示例代码（使用 `sklearn`）