机器学习：支持向量机（SVM）详解

📘 一、简介：什么是 SVM？

支持向量机（Support Vector Machine, SVM） 是一种经典的监督学习算法 ，最初由 Vladimir Vapnik 及其同事在 20 世纪 90 年代提出。它主要用于二分类任务，也可通过扩展用于多分类和回归（称为 SVR）。

核心思想

SVM 不是简单地"拟合数据"，而是致力于寻找一个最优决策边界 （称为超平面 ），使得不同类别的样本被尽可能清晰地分开，并且两类之间的间隔（margin）最大化。这种"最大间隔"策略赋予 SVM 强大的泛化能力，尤其在小样本、高维场景下表现优异。

为什么叫"支持向量"？

决策边界仅由靠近边界的少数关键样本决定，这些样本称为支持向量（Support Vectors）。
其余样本即使删除，也不影响最终模型------这使得 SVM 模型紧凑且高效。

应用领域

文本分类（如垃圾邮件检测）
图像识别（如手写数字识别）
生物信息学（基因表达分析）
金融风控（信用评分）

✅ SVM 的优势 ：理论扎实、泛化能力强、对高维数据友好。

⚠️ 局限性：训练复杂度高（不适合超大规模数据）、对噪声敏感、需特征缩放。

📘 二、数学原理

2.1 硬间隔 SVM（线性可分）

目标：找到超平面，

满足：并最大化间隔 ，

等价于最小化：

2.2 软间隔 SVM（处理噪声与不可分）

引入松弛变量，允许部分误分类：

(C)：控制对误分类的惩罚强度（越大越不容忍错误）。

2.3 对偶问题与核技巧

通过对偶变换，得到：其中：

是拉格朗日乘子，仅支持向量的 (\alpha_i > 0)；
是核函数，用于处理非线性问题。

📊 三、核函数选择指南

核函数	公式	适用场景	超参数
线性核		高维稀疏数据（如文本）	无
RBF（高斯核）	![K = \exp(-\gamma	\mathbf{x}_i - \mathbf{x}_j	^2)](https://latex.csdn.net/eq)
多项式核		已知特征有交互关系
Sigmoid核		类神经网络，但不稳定

调参建议

先标准化数据（SVM 对尺度敏感！）
小数据 + 非线性 → RBF + GridSearchCV
高维数据（如 NLP）→ LinearSVC（更快更稳）

💻 四、代码实现

4.1 使用 scikit-learn（推荐）

复制代码

from sklearn import datasets
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report

# 加载数据
X, y = datasets.make_classification(n_samples=1000, n_features=20, random_state=42)

# 划分 + 标准化
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 训练（RBF 核）
svm = SVC(kernel='rbf', C=1.0, gamma='scale')
svm.fit(X_train, y_train)

# 评估
y_pred = svm.predict(X_test)
print(classification_report(y_test, y_pred))

4.2 超参数调优

复制代码

param_grid = {'C': [0.1, 1, 10], 'gamma': ['scale', 0.01, 0.1, 1]}
grid = GridSearchCV(SVC(kernel='rbf'), param_grid, cv=5)
grid.fit(X_train, y_train)
print("Best params:", grid.best_params_)

4.3 大规模线性 SVM（高效版）

复制代码

from sklearn.svm import LinearSVC
# 适用于高维稀疏数据（如文本）
clf = LinearSVC(C=1.0, dual=False)  # dual=False 当 n_samples > n_features
clf.fit(X_train, y_train)

✅ 总结：SVM 使用最佳实践

步骤	操作
1. 数据预处理	标准化（`StandardScaler`）
2. 选择核函数	高维 → 线性；低维非线性 → RBF
3. 调参	用 `GridSearchCV` 调 `C` 和 `gamma`
4. 多分类	自动使用 one-vs-one（SVC）或 one-vs-rest（LinearSVC）
5. 大数据	考虑 `LinearSVC` 或改用随机森林/XGBoost

💡 一句话记住 SVM ：
"找一条最宽的马路，把两类人隔开，只靠站在路边的几个人（支持向量）来决定马路位置。"