使用 DBSCAN(基于密度的聚类算法) 对二维数据进行聚类分析

代码功能

生成数据:

使用 make_moons 方法生成一个非线性分布的二维数据集,模拟月亮形状的两个半环形分布,同时添加一定的噪声。

数据标准化:

使用 StandardScaler 对数据进行标准化处理,使不同特征的值具有相同的分布范围(零均值和单位方差),以提高 DBSCAN 的距离计算效果。

应用 DBSCAN:

使用 DBSCAN 算法对标准化后的数据进行聚类分析:

eps=0.2 定义两个点被视为"邻居"的最大距离。

min_samples=5 指定一个点需要至少有 5 个邻居才能被视为核心点。

算法将点划分为不同的簇或标记为噪声点。

可视化聚类结果:

使用 Matplotlib 将聚类结果以散点图形式展示:

每个簇以不同颜色表示。

噪声点用黑色标记。

输出聚类统计:

打印每个簇的编号及其包含的点数,同时统计噪声点的数量。

代码

python 复制代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 1. 生成示例数据
X, y = make_moons(n_samples=300, noise=0.05, random_state=42)  # 生成类似月亮形状的数据

# 2. 数据标准化(DBSCAN 对距离敏感,建议先标准化)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 应用 DBSCAN
dbscan = DBSCAN(eps=0.2, min_samples=5)  # 设置超参数
labels = dbscan.fit_predict(X_scaled)

# 4. 可视化结果
# 获取每个簇的颜色
unique_labels = set(labels)
colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

# 绘制聚类结果
plt.figure(figsize=(8, 6))
for k, col in zip(unique_labels, colors):
    if k == -1:
        # 噪声点标记为黑色
        col = [0, 0, 0, 1]
    
    class_member_mask = (labels == k)
    xy = X[class_member_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col), markeredgecolor='k', markersize=6)

plt.title("DBSCAN Clustering")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

# 5. 输出聚类结果
for i in unique_labels:
    if i == -1:
        print(f"Cluster: Noise (Label {i}) - Number of points: {(labels == i).sum()}")
    else:
        print(f"Cluster: {i} - Number of points: {(labels == i).sum()}")
相关推荐
嘟嘟w3 分钟前
垃圾回收算法
算法
胖咕噜的稞达鸭7 分钟前
算法入门:专题二分查找算法 模板总结 题目练手 :排序数组中查找元素的第一个和最后一个位置 第一个错误的版本 查找x的平方根 搜索插入位置 山脉数组的封顶索引
c语言·c++·算法·leetcode
松涛和鸣9 分钟前
21、单向链表完整实现与核心技巧总结
linux·c语言·数据结构·算法·链表
TL滕21 分钟前
从0开始学算法——第三天(数据结构的操作)
数据结构·笔记·学习·算法
Aaron158831 分钟前
基于FPGA实现卷积方法比较分析
arm开发·算法·fpga开发·硬件架构·硬件工程·射频工程·基带工程
AndrewHZ44 分钟前
【图像处理基石】什么是分水岭算法?
图像处理·算法·计算机视觉·图像分割·cv·形态学分割
前端小L1 小时前
回溯算法专题(五):去重与剪枝的双重奏——攻克「组合总和 II」
算法·剪枝
TL滕1 小时前
从0开始学算法——第三天(数据结构的多样性)
数据结构·笔记·学习·算法
V1ncent Chen1 小时前
人工智能的基石之一:算法
人工智能·算法
无限进步_1 小时前
深入理解顺序表:从原理到完整实现
c语言·开发语言·数据结构·c++·算法·链表·visual studio