支持向量机(SVM)分类

支持向量机(Support Vector Machine,SVM)是一种经典的监督学习算法,主要用于分类任务,也可扩展到回归问题(称为支持向量回归,SVR)。其核心思想是通过寻找一个最优超平面,最大化不同类别数据之间的间隔(Margin),从而实现高效分类。

一、核心思想

SVM的目标是找到一个决策边界(超平面),将不同类别的数据分开,并确保该边界到最近数据点(支持向量)的距离最大。这种"最大化间隔"的策略使得模型具有更好的泛化能力。

超平面(Hyperplane):

在n维空间中,一个超平面是n-1维的子空间。对于二维数据,超平面是一条直线;三维数据中是一个平面。

支持向量(Support Vectors):

距离最优超平面最近的样本点称为支持向量,它们是决定超平面位置的关键样本。其他样本的位置对超平面无影响,这也是"SVM"名称的由来。

间隔(Margin):

超平面到两类最近支持向量的距离之和。SVM的目标是最大化间隔。

设超平面方程为\(w\cdot x+b=0\)(其中\(w\)是权重向量,\(b\)是偏置),则单个样本点\(x_i\)到超平面的距离为:

\[距离=\frac{\left| w\cdot x_i+b \right|}{\left| \left| w \right| \right|} \]

最优超平面需满足:对于正类样本,有\(w\cdot x_i+b\geq1\);对于负类样本,有\(w\cdot x_i+b\leq-1\) 。此时,间隔为 \(\frac{2}{\left| \left| w \right| \right|}\),最大化间隔等价于最小化\(\left| \left| w \right| \right|^{2}\)。

二、线性可分情况(硬间隔SVM)

假设数据线性可分,SVM的优化问题可表示为

\(\min_{w,b}{\frac{1}{2}\left| \left| w \right| \right|^{2}}\)   s.t. \(y_i(w\cdot x_i+b)\geq1 \quad (\forall i)\)

目标:最小化\(\left| \left| w \right| \right|\)(等价于最大化间隔\(\frac{2}{\left| \left| w \right| \right|}\))。

约束:确保所有样本被正确分类且位于间隔边界之外。

三、非线性可分情况(软间隔SVM)

当样本无法被线性超平面分隔时,SVM 通过以下方法处理:

1. 引入松弛变量(Slack Variables)

允许部分样本跨越超平面,但需在优化目标中加入惩罚项(即正则化参数\(C\)),平衡间隔最大化和分类错误最小化

\(\min_{w,b}{\frac{1}{2}\left| \left| x \right| \right|^{2}}+C\sum_{i}{\xi_i}\)   s.t. \(y_i(w\cdot x_i+b)\geq 1-\xi_i,\quad \xi_i\geq0\)

\(C\)的作用:控制分类错误的惩罚力度。\(C\)越大,模型越严格(可能过拟合);\(C\)越小,允许更多错误(可能欠拟合)。

2. 核技巧(Kernel Trick)

对于非线性可分数据,SVM通过核函数将原始空间映射到高维特征空间,使数据在新空间中线性可分。常见核函数有

线性核:\(K(x_i,x_j)=x_i\cdot x_j\)

多项式核:\(K(x_i,x_j)=(x_i\cdot x_j+c)^{d}\)

高斯径向基核(RBF):\(K(x_i,x_j)=exp(-\gamma \left| \left| x_i-x_j \right| \right|^{2})\)

Sigmoid核: \(K(x_i,x_j)=tanh(\alpha x_i\cdot x_j+c)\)

四、优化与求解

SVM通常转化为对偶问题,利用拉格朗日乘子法求解:

\(max_{\alpha}{\sum_{i}{\alpha_i}}-\frac{1}{2}\sum_{i,j}{\alpha_i\alpha_jy_iy_jK(x_i,x_j)}\)  s.t. \(0\leq\alpha_i\leq C,\sum_{i}{\alpha_iy_i=0}\)

通过拉格朗日对偶性转化为对偶问题,优势在于:

a) 将高维空间中的内积运算转化为核函数计算(避免直接处理高维数据);

b) 解的形式仅依赖于支持向量,计算效率更高。

五、Python实现示例

python 复制代码
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data  # 特征
y = iris.target  # 标签

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 创建SVM分类器
clf = SVC(kernel='linear')  # 使用线性核函数

# 训练模型
clf.fit(X_train, y_train)

# 预测
y_pred = clf.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f"模型准确率: {accuracy:.2f}")

# 预测新样本
new_samples = [[5.1, 3.5, 1.4, 0.2], [6.3, 3.3, 4.7, 1.6]]
predictions = clf.predict(new_samples)
print(f"新样本预测结果: {[iris.target_names[p] for p in predictions]}")

End.

相关推荐
@insist1235 小时前
信息安全工程师考点精讲:身份认证核心原理与分类体系(上篇)
大数据·网络·分类·信息安全工程师·软件水平考试
AI技术增长6 小时前
Pytorch图像去噪实战(六):CBDNet真实噪声去噪实战,解决合成噪声模型落地效果差的问题
pytorch·深度学习·机器学习
博.闻广见7 小时前
AI_概率统计-2.常见分布
人工智能·机器学习
谭欣辰9 小时前
C++快速幂完整实战讲解
算法·决策树·机器学习
AI周红伟9 小时前
周红伟:GPT-Image-2深度解析:从技术原理到实战教程,为什么它能让整个AI圈炸锅?
人工智能·gpt·深度学习·机器学习·语言模型·openclaw
时序之心10 小时前
上海交大、东北大学:时序分类与感知领域的两项前沿突破
人工智能·分类·时间序列
nap-joker10 小时前
不完全多模分类的推断时间动态模式选择
人工智能·分类·数据挖掘·不完整模态·插补-丢弃困境
Uopiasd1234oo10 小时前
上下文引导模块改进YOLOv26局部与全局特征融合能力双重提升
深度学习·yolo·机器学习
哥布林学者11 小时前
深度学习进阶(十四)ConvNeXt
机器学习·ai
ytttr87313 小时前
MATLAB SIFT图像配准实现
算法·机器学习·matlab