机器学习：DBSCAN算法(效果比K-means好)

十有久诚2023-11-30 7:05

基本概念

核心对象：以点为圆心半径为r的圆，如果圈里面的样本点大于给定的阈值(minPts)，那么这个点就叫做核心点

直接密度可达：点p在q为圆心的圆内

密度可达：

p1与p2直接密度可达，p2与p3直接密度可达，所以p1与p3被称为密度可达

边界点：

以p1为核心点的圈含p2，p2自己为核心点也有对应圈，并且圈内有点p3，同样p3也有以p3为核心点的圈，并且有点p4，这说明点p1，p2，p3是可以发展下去的点(我认为可以理解成以之前圈住点为圆心画圈不断圈住新的点)

但是p4就不行了，因为以p4为核心点的圈内没有其他样本点或者说样本点的个数少于规定的阈值MinPts，没有继续"发展"下去

工作流程

算法

需要输入的数据

参数D：输入数据集

参数：指定半径

MinPts：密度阈值

如何选择参数，基本上都是不断尝试

优势和劣势

可视化展示

Visualizing DBSCAN Clustering

Gaussian Mixture

如下图所示，调大半径epsilon之后，离群点就变小了

如果想用DESCAN算法找离群点，可以考虑将半径调小

Smiley Face

Packed Circles

但对于这种密集区域此时，DBSCAN分类就不如K-means

半径小了，就出现分类很多的情况；半径大了，就出现分类只有一两个的情况，还不如直接K-means直接给定分类的类别

上一篇：Docker安装Elasticsearch以及ik分词器

下一篇：分布式搜索引擎elasticsearch

热门推荐

01GitHub 镜像站点 02一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 03Vue-skills的中文文档 04Claude Code Skills 实用使用手册 05Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 06让 Trae IDE 智能体 “读懂”文档 Excel+PDF+DOCX ：mcp-documents-reader 工具使用指南 07UV安装并设置国内源 08Linux下V2Ray安装配置指南 09OpenClaw部署与配置教程：在Mac mini上接入国产大模型与飞书 10在Trae中使用Pencil MCP