文章目录
-
- [1 支持向量机(SVM)](#1 支持向量机(SVM))
-
- [1.1 基本原理](#1.1 基本原理)
- [1.2 参数描述](#1.2 参数描述)
- [1.3 公式](#1.3 公式)
- [2 K-means聚类](#2 K-means聚类)
-
- [2.1 基本原理](#2.1 基本原理)
- [2.2 参数描述](#2.2 参数描述)
- [2.3 公式](#2.3 公式)
- [3 DBSCAN聚类](#3 DBSCAN聚类)
-
- [3.1 基本原理](#3.1 基本原理)
- [3.2 参数描述](#3.2 参数描述)
- [3.3 公式](#3.3 公式)
1 支持向量机(SVM)
支持向量机是一种监督学习算法,主要用于分类任务,其核心思想是寻找一个最优超平面,以最大化不同类别样本之间的间隔,从而提升模型的泛化能力。
1.1 基本原理
给定训练数据集 { ( x i , y i ) } \{(x_i, y_i)\} {(xi,yi)},其中 (x_i) 是特征向量, y i ∈ { − 1 , + 1 } y_i \in \{-1, +1\} yi∈{−1,+1} 是类别标签。SVM的目标是找到一个超平面 w ⋅ x + b = 0 w \cdot x + b = 0 w⋅x+b=0,使得所有样本被正确分类,且间隔(即离超平面最近的样本点到超平面的距离)最大。这等价于求解一个凸优化问题。
1.2 参数描述
- 惩罚参数C:控制误分类的惩罚程度。C值越大,模型对误分类的容忍度越低,可能导致过拟合;C值越小,容忍度越高,可能欠拟合。C平衡了间隔最大化和分类误差。
- 核函数:用于处理非线性可分数据,将原始特征映射到高维空间。常见核函数包括线性核、多项式核和径向基函数(RBF)核。其中,RBF核参数gamma影响核的宽度,gamma越大,核越局部化,模型可能更复杂。
1.3 公式
SVM的优化问题可表述为最小化以下目标函数:
min w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 n ξ i \min_{w, b} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^n \xi_i w,bmin21∥w∥2+Ci=1∑nξi
约束条件为:
y i ( w ⋅ x i + b ) ≥ 1 − ξ i , ξ i ≥ 0 , ∀ i y_i (w \cdot x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0, \quad \forall i yi(w⋅xi+b)≥1−ξi,ξi≥0,∀i
其中, w w w 是超平面法向量, b b b 是偏置项, ξ i \xi_i ξi 是松弛变量,允许部分样本误分类或落入间隔内。当使用核函数 K ( x i , x j ) K(x_i, x_j) K(xi,xj) 时,优化问题转化为对偶形式,涉及拉格朗日乘子。
2 K-means聚类
K-means是一种无监督聚类算法,旨在将数据划分为K个簇,使得簇内样本相似度高,簇间相似度低。它基于欧氏距离,通过迭代优化簇中心来实现。
2.1 基本原理
算法首先随机初始化K个聚类中心,然后迭代执行两步:分配步骤(将每个样本分配到最近的聚类中心所属的簇)和更新步骤(重新计算每个簇的均值作为新中心)。迭代直至簇中心变化收敛或达到最大迭代次数。
2.2 参数描述
- 簇数K:需要预先指定的簇的数量。K的选择直接影响聚类结果,通常基于领域知识或使用肘部法则、轮廓系数等方法评估。
- 初始化方法:聚类中心的初始位置可能影响最终聚类质量。常用方法包括随机初始化和K-means++初始化,后者通过优化初始中心选择来提高稳定性和收敛速度。
2.3 公式
K-means的目标是最小化平方误差和(SSE),即簇内方差之和:
J = ∑ j = 1 K ∑ x i ∈ C j ∥ x i − μ j ∥ 2 J = \sum_{j=1}^K \sum_{x_i \in C_j} \|x_i - \mu_j\|^2 J=j=1∑Kxi∈Cj∑∥xi−μj∥2
其中, C j C_j Cj 表示第j个簇, μ j \mu_j μj 是簇 C j C_j Cj 的中心(均值向量)。在更新步骤中,中心通过以下公式计算:
μ j = 1 ∣ C j ∣ ∑ x i ∈ C j x i \mu_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i μj=∣Cj∣1xi∈Cj∑xi
3 DBSCAN聚类
DBSCAN是一种基于密度的聚类算法,能够发现任意形状的簇,并有效识别噪声点。它不需要预先指定簇数,而是根据数据密度自动划分。
3.1 基本原理
DBSCAN通过定义核心点、边界点和噪声点来构建簇。核心点是在指定半径eps内至少有min_samples个点的点;边界点位于核心点的邻域内但自身不满足核心点条件;噪声点既非核心点也非边界点。聚类过程从核心点出发,通过密度可达性扩展簇。
3.2 参数描述
- 邻域半径eps:定义点的邻域范围,用于计算密度。eps越小,簇越密集,可能产生更多小簇或噪声;eps越大,可能合并不同簇,导致簇数量减少。
- 最小样本数min_samples:定义核心点所需的最小邻域点数。min_samples越大,核心点标准越严格,簇可能更稀疏或噪声增多;反之,核心点增多,可能生成更多簇。
3.3 公式
点p的eps-邻域定义为:
N eps ( p ) = { q ∈ D ∣ dist ( p , q ) ≤ eps } N_{\text{eps}}(p) = \{ q \in D \mid \text{dist}(p, q) \leq \text{eps} \} Neps(p)={q∈D∣dist(p,q)≤eps}
其中, D D D 是数据集, dist \text{dist} dist是距离度量(通常为欧氏距离)。点p是核心点当且仅当:
∣ N eps ( p ) ∣ ≥ min_samples |N_{\text{eps}}(p)| \geq \text{min\_samples} ∣Neps(p)∣≥min_samples
基于此,DBSCAN通过密度相连性扩展簇,无需显式优化公式,而是基于邻域关系迭代探索。。