机器学习:DBSCAN算法(效果比K-means好)

基本概念

核心对象:以点为圆心半径为r的圆,如果圈里面的样本点大于给定的阈值(minPts),那么这个点就叫做核心点

直接密度可达:点p在q为圆心的圆内

密度可达:

p1与p2直接密度可达,p2与p3直接密度可达,所以p1与p3被称为密度可达

边界点:

以p1为核心点的圈含p2,p2自己为核心点也有对应圈,并且圈内有点p3,同样p3也有以p3为核心点的圈,并且有点p4,这说明点p1,p2,p3是可以发展下去的点(我认为可以理解成以之前圈住点为圆心画圈不断圈住新的点)

但是p4就不行了,因为以p4为核心点的圈内没有其他样本点或者说样本点的个数少于规定的阈值MinPts,没有继续"发展"下去

工作流程

算法

需要输入的数据

参数D:输入数据集

参数:指定半径

MinPts:密度阈值

如何选择参数,基本上都是不断尝试

优势和劣势

可视化展示

Visualizing DBSCAN Clustering

Gaussian Mixture

如下图所示,调大半径epsilon之后,离群点就变小了

如果想用DESCAN算法找离群点,可以考虑将半径调小

Smiley Face

Packed Circles

但对于这种密集区域此时,DBSCAN分类就不如K-means

半径小了,就出现分类很多的情况;半径大了,就出现分类只有一两个的情况,还不如直接K-means直接给定分类的类别

相关推荐
我爱一条柴ya2 分钟前
【AI大模型】线性回归:经典算法的深度解析与实战指南
人工智能·python·算法·ai·ai编程
三维重建-光栅投影2 小时前
VS中将cuda项目编译为DLL并调用
算法
课堂剪切板4 小时前
ch03 部分题目思路
算法
山登绝顶我为峰 3(^v^)35 小时前
如何录制带备注的演示文稿(LaTex Beamer + Pympress)
c++·线性代数·算法·计算机·密码学·音视频·latex
Two_brushes.6 小时前
【算法】宽度优先遍历BFS
算法·leetcode·哈希算法·宽度优先
IT古董7 小时前
【第二章:机器学习与神经网络概述】04.回归算法理论与实践 -(4)模型评价与调整(Model Evaluation & Tuning)
神经网络·机器学习·回归
森焱森8 小时前
水下航行器外形分类详解
c语言·单片机·算法·架构·无人机
QuantumStack10 小时前
【C++ 真题】P1104 生日
开发语言·c++·算法
写个博客10 小时前
暑假算法日记第一天
算法
绿皮的猪猪侠11 小时前
算法笔记上机训练实战指南刷题
笔记·算法·pta·上机·浙大