SVM、K-means与DBSCAN 算法简介

文章目录

- [1 支持向量机（SVM）](#1 支持向量机（SVM）)
- - [1.1 基本原理](#1.1 基本原理)
  - [1.2 参数描述](#1.2 参数描述)
  - [1.3 公式](#1.3 公式)
- [2 K-means聚类](#2 K-means聚类)
- - [2.1 基本原理](#2.1 基本原理)
  - [2.2 参数描述](#2.2 参数描述)
  - [2.3 公式](#2.3 公式)
- [3 DBSCAN聚类](#3 DBSCAN聚类)
- - [3.1 基本原理](#3.1 基本原理)
  - [3.2 参数描述](#3.2 参数描述)
  - [3.3 公式](#3.3 公式)

1 支持向量机（SVM）

支持向量机是一种监督学习算法，主要用于分类任务，其核心思想是寻找一个最优超平面，以最大化不同类别样本之间的间隔，从而提升模型的泛化能力。

1.1 基本原理

给定训练数据集 { ( x i , y i ) } \{(x_i, y_i)\} {(xi,yi)}，其中 (x_i) 是特征向量， y i ∈ { − 1 , + 1 } y_i \in \{-1, +1\} yi∈{−1,+1} 是类别标签。SVM的目标是找到一个超平面 w ⋅ x + b = 0 w \cdot x + b = 0 w⋅x+b=0，使得所有样本被正确分类，且间隔（即离超平面最近的样本点到超平面的距离）最大。这等价于求解一个凸优化问题。

1.2 参数描述

惩罚参数C：控制误分类的惩罚程度。C值越大，模型对误分类的容忍度越低，可能导致过拟合；C值越小，容忍度越高，可能欠拟合。C平衡了间隔最大化和分类误差。
核函数：用于处理非线性可分数据，将原始特征映射到高维空间。常见核函数包括线性核、多项式核和径向基函数（RBF）核。其中，RBF核参数gamma影响核的宽度，gamma越大，核越局部化，模型可能更复杂。

1.3 公式

SVM的优化问题可表述为最小化以下目标函数：

min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 n ξ i \min_{w, b} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i w,bmin21∥w∥2+Ci=1∑nξi

约束条件为：

y i ( w ⋅ x i + b ) ≥ 1 − ξ i , ξ i ≥ 0 , ∀ i y_i (w \cdot x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i yi(w⋅xi+b)≥1−ξi,ξi≥0,∀i

其中， w w w 是超平面法向量， b b b 是偏置项， ξ i \xi_i ξi 是松弛变量，允许部分样本误分类或落入间隔内。当使用核函数 K ( x i , x j ) K(x_i, x_j) K(xi,xj) 时，优化问题转化为对偶形式，涉及拉格朗日乘子。

2 K-means聚类

K-means是一种无监督聚类算法，旨在将数据划分为K个簇，使得簇内样本相似度高，簇间相似度低。它基于欧氏距离，通过迭代优化簇中心来实现。

2.1 基本原理

算法首先随机初始化K个聚类中心，然后迭代执行两步：分配步骤（将每个样本分配到最近的聚类中心所属的簇）和更新步骤（重新计算每个簇的均值作为新中心）。迭代直至簇中心变化收敛或达到最大迭代次数。

2.2 参数描述

簇数K：需要预先指定的簇的数量。K的选择直接影响聚类结果，通常基于领域知识或使用肘部法则、轮廓系数等方法评估。
初始化方法：聚类中心的初始位置可能影响最终聚类质量。常用方法包括随机初始化和K-means++初始化，后者通过优化初始中心选择来提高稳定性和收敛速度。

2.3 公式

K-means的目标是最小化平方误差和（SSE），即簇内方差之和：

J = ∑ j = 1 K ∑ x i ∈ C j ∥ x i − μ j ∥ 2 J = \sum_{j=1}^K \sum_{x_i \in C_j} \|x_i - \mu_j\|^2 J=j=1∑Kxi∈Cj∑∥xi−μj∥2

其中， C j C_j Cj 表示第j个簇， μ j \mu_j μj 是簇 C j C_j Cj 的中心（均值向量）。在更新步骤中，中心通过以下公式计算：

μ j = 1 ∣ C j ∣ ∑ x i ∈ C j x i \mu_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i μj=∣Cj∣1xi∈Cj∑xi

3 DBSCAN聚类

DBSCAN是一种基于密度的聚类算法，能够发现任意形状的簇，并有效识别噪声点。它不需要预先指定簇数，而是根据数据密度自动划分。

3.1 基本原理

DBSCAN通过定义核心点、边界点和噪声点来构建簇。核心点是在指定半径eps内至少有min_samples个点的点；边界点位于核心点的邻域内但自身不满足核心点条件；噪声点既非核心点也非边界点。聚类过程从核心点出发，通过密度可达性扩展簇。

3.2 参数描述

邻域半径eps：定义点的邻域范围，用于计算密度。eps越小，簇越密集，可能产生更多小簇或噪声；eps越大，可能合并不同簇，导致簇数量减少。
最小样本数min_samples：定义核心点所需的最小邻域点数。min_samples越大，核心点标准越严格，簇可能更稀疏或噪声增多；反之，核心点增多，可能生成更多簇。

3.3 公式

点p的eps-邻域定义为：

N eps ( p ) = { q ∈ D ∣ dist ( p , q ) ≤ eps } N_{\text{eps}}(p) = \{ q \in D \mid \text{dist}(p, q) \leq \text{eps} \} Neps(p)={q∈D∣dist(p,q)≤eps}

其中， D D D 是数据集， dist \text{dist} dist是距离度量（通常为欧氏距离）。点p是核心点当且仅当：

∣ N eps ( p ) ∣ ≥ min_samples |N_{\text{eps}}(p)| \geq \text{min\_samples} ∣Neps(p)∣≥min_samples

基于此，DBSCAN通过密度相连性扩展簇，无需显式优化公式，而是基于邻域关系迭代探索。。