《机器学习》 DBSCAN算法原理、参数解析、案例实现

有上述几个数据点，随机以A为核心对象，给定半径范围内，有3个数据点，首先第一个圈包围了A，其内有四个数据点，额外的三个点叫直接密度可达 ，这满足要求，继续分别对每个点进行划定上述范围及密度阈值，最终画到B点和C点，此时B点和C点指定范围内没有要求个数的点，所以不再继续扩散，那么B、C点就叫边界点 ，同一个簇内，除了直接密度可达点外，其余的叫密度可达点 ，而外面有一个划分不到的点N，叫离群点

三、参数解析

1、用法

python 复制代码

class sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric='euclidean', metric_params=None, algorithm='auto', leaf_size=30, p=None, n_jobs=None)

2、参数

1）eps：邻域的距离阈值

默认值是0.5，一般需要通过在多组值里面选择一个合适的阈值。eps过大，则更多的点会落在核心对象的ϵϵ-邻域，此时我们的类别数可能会减少，本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大，本来是一类的样本却被划分开。

2）min_samples：样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值

默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下，min_samples过大，则核心对象会过少，此时簇内部分本来是一类的样本可能会被标为噪音点，类别数也会变多。反之min_samples过小的话，则会产生大量的核心对象，可能会导致类别数过少。

3）metric：最近邻距离度量参数

可以使用的距离度量较多，一般来说DBSCAN使用默认的欧式距离（即p=2的闵可夫斯基距离）就可以满足我们的需求。可以使用的距离度量参数有：

a) 欧式距离 "euclidean":

b) 曼哈顿距离 "manhattan"

c) 切比雪夫距离"chebyshev"

4）algorithm：最近邻搜索算法参数

算法一共有三种，第一种是蛮力实现 ，第二种是KD树实现 ，第三种是球树实现 。对于这个参数，一共有4种可选输入，'brute '对应第一种蛮力实现，'kd_tree '对应第二种KD树实现，'ball_tree' 对应第三种的球树实现，**'auto'**则会在上面三种算法中做权衡，选择一个拟合最好的最优算法。

5）属性

Labels_： 每个点的分类标签。

四、案例实现

1、文件内容

2、代码实现

python 复制代码

import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics

# 读取文件
beer = pd.read_table('data.txt',sep=' ',encoding='utf8',engine='python')
# 传入变量需要训练的四列数据
x = beer[['calories','sodium','alcohol','cost']]
# 建立一个空列表，用于存放下方for循环遍历的不同的聚类质量评分
scores = []
for i in range(1,10):
    labels = DBSCAN(eps=20,min_samples=i).fit(x).labels_  # 设置半径为20，最小样本点个数为i
    score = metrics.silhouette_score(x,labels)  # 输出聚类质量评分存入score
    scores.append(score)
k = scores.index(max(scores))+1  # 得到最优聚类质量评分对应的最小样本数

# dbscan聚类分析
# eps:半径，min_samples：最小密度，就是园内最少几个样本点
# labels 分类结果  自动分类，-1为离群点
db = DBSCAN(eps=20,min_samples=k).fit(x)  # 使用上述的最优k值进行训练
labels = db.labels_  # 打印数据对应类别标签

# 增加结果至原始数据框
beer['cluster_db'] = labels   # 将类别标签存入原始数据，新建一个列，列名为cluster_db
beer.sort_values('cluster_db')   # 对cluster_db中的值进行排序

score = metrics.silhouette_score(x,beer.cluster_db)   # 打印评估聚类质量的指标

《机器学习》 DBSCAN算法 原理、参数解析、案例实现

一、先看案例

1、对K-mean算法

1）优点：

2）缺点：

2、使用DBSCAN去分类

二、DBSCAN算法

1、什么是DBSCAN

2、实现过程