【一起来学AI大模型】支持向量机（SVM）：核心算法深度解析

一、算法核心思想

支持向量机（SVM） 是一种强大的监督学习算法，核心思想是通过寻找最优超平面实现分类或回归：

分类目标：找到能最大化两类数据间隔的超平面
回归目标：找到包含最多数据点的ε带

关键概念图解

复制代码

      超平面：w·x + b = 0
      /              \
     /                \
+1  |   支持向量      |-1
    |      ● ●        |
    |    ●      ●     |
    |  ●          ●   |
    |_________________|
    最大间隔(margin)

二、数学原理与优化问题

1. 线性可分情况

目标函数：

复制代码

\min_{w,b} \frac{1}{2}||w||^2 \quad s.t. \quad y_i(w·x_i + b) \geq 1

w：法向量，决定超平面方向
b：偏置项，决定超平面位置
支持向量：满足 y_i(w·x_i + b) = 1 的样本点

2. 非线性情况（核技巧）

通过核函数将数据映射到高维空间：

复制代码

K(x_i, x_j) = \phi(x_i)·\phi(x_j)

三、Python手写实现（线性SVM）

复制代码

import numpy as np

class SVM:
    def __init__(self, C=1.0, lr=0.01, epochs=1000):
        self.C = C  # 正则化参数
        self.lr = lr  # 学习率
        self.epochs = epochs
        
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.w = np.zeros(n_features)
        self.b = 0
        
        # 转换为+1/-1标签
        y_ = np.where(y <= 0, -1, 1)
        
        # 梯度下降优化
        for _ in range(self.epochs):
            for idx, x_i in enumerate(X):
                condition = y_[idx] * (np.dot(x_i, self.w) - self.b) >= 1
                if condition:
                    self.w -= self.lr * (2 * self.C * self.w)
                else:
                    self.w -= self.lr * (2 * self.C * self.w - np.dot(x_i, y_[idx]))
                    self.b -= self.lr * y_[idx]
    
    def predict(self, X):
        return np.sign(np.dot(X, self.w) - self.b)

四、Scikit-Learn实战应用

复制代码

from sklearn.svm import SVC, SVR
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 创建数据集
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 数据标准化（SVM对尺度敏感）
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 创建SVM分类器
svm_clf = SVC(
    C=1.0,              # 正则化强度（越小容忍度越高）
    kernel='rbf',        # 核函数类型
    gamma='scale',       # 核函数系数
    probability=True,    # 启用概率预测
    random_state=42
)

# 训练与评估
svm_clf.fit(X_train, y_train)
y_pred = svm_clf.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")

# 获取支持向量
print(f"支持向量数量: {len(svm_clf.support_vectors_)}")

五、核函数选择指南

| 核函数 | 公式 | 适用场景 | 复杂度 |
|-------------|---------------------------------|--------|---------|---|------|---------|---------|
| 线性 | K(x_i,x_j)=x_i·x_j | 线性可分数据 | O(n) |
| 多项式 | K(x_i,x_j)=(γx_i·x_j + r)^d | 中等复杂度 | O(n^d) |
| RBF（高斯） | `K(x_i,x_j)=exp(-γ | | x_i-x_j | | ²)` | 复杂非线性数据 | O(n^2) |
| Sigmoid | K(x_i,x_j)=tanh(γx_i·x_j + r) | 神经网络近似 | O(n^2) |

经验法则：首选RBF核，当特征数>>样本数时用线性核

六、关键参数调优

复制代码

from sklearn.model_selection import GridSearchCV

param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': ['scale', 'auto', 0.1, 1, 10],
    'kernel': ['rbf', 'linear', 'poly']
}

grid = GridSearchCV(
    SVC(),
    param_grid,
    cv=5,
    scoring='accuracy',
    n_jobs=-1
)
grid.fit(X_train, y_train)

print("最佳参数:", grid.best_params_)
print("最佳分数:", grid.best_score_)

七、SVM回归（SVR）

复制代码

from sklearn.svm import SVR
from sklearn.datasets import fetch_california_housing

# 加载回归数据集
housing = fetch_california_housing()
X, y = housing.data, housing.target

# 创建SVR模型
svr = SVR(
    kernel='rbf',
    C=1.0,
    epsilon=0.2  # 间隔带宽度
)

svr.fit(X_train, y_train)
y_pred = svr.predict(X_test)
print(f"R² Score: {svr.score(X_test, y_test):.3f}")

八、支持向量可视化（Matplotlib）

复制代码

import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

# 降维可视化
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_train)

plt.figure(figsize=(10, 8))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_train, cmap='coolwarm', alpha=0.6)

# 绘制支持向量
sv_indices = svm_clf.support_
plt.scatter(
    X_pca[sv_indices, 0], 
    X_pca[sv_indices, 1],
    s=100, facecolors='none', edgecolors='k',
    label='支持向量'
)

# 绘制决策边界
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()

xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = svm_clf.decision_function(pca.inverse_transform(xy)).reshape(XX.shape)

ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], 
           alpha=0.5, linestyles=['--', '-', '--'])
plt.legend()
plt.title('SVM决策边界与支持向量')
plt.show()

九、SVM优缺点分析

优点：

在高维空间中表现优异
对过拟合有较强鲁棒性（通过正则化）
决策边界仅依赖支持向量（内存高效）
适用多种数据类型（核技巧）

缺点：

大规模数据训练慢（O(n²)~O(n³)）
需要精细调参（C, γ）
对缺失数据和噪声敏感
结果可解释性差（相比决策树）

十、性能优化策略

数据预处理：
- 标准化/归一化（必须）
- 特征选择（减少噪声）

算法加速：

复制代码

from sklearn.svm import LinearSVC  # 线性核专用优化

linear_svc = LinearSVC(
    dual=False,  # 当n_samples > n_features时
    loss='squared_hinge',
    C=1.0
)

大规模训练：

复制代码

# 使用增量学习
svm_clf = SVC(kernel='rbf', cache_size=1000)

# 或使用近似算法
from sklearn.kernel_approximation import Nystroem

feature_map = Nystroem(gamma=0.2, n_components=300)
X_transformed = feature_map.fit_transform(X)

十一、多类分类策略

方法	原理	特点
一对一（OvO）	构建k(k-1)/2个二分类器	训练快，适合大数据
一对多（OvR）	构建k个二分类器	训练慢，常用默认
有向无环图（DAG）	层级决策	预测高效

复制代码

# Scikit-Learn自动选择策略
svm_multi = SVC(decision_function_shape='ovr')  # 一对多

十二、典型应用场景

图像识别：手写数字分类（MNIST）
生物信息：基因序列分类
文本分类：垃圾邮件检测
金融风控：欺诈交易识别
医学诊断：肿瘤良恶性预测

黄金实践：

始终标准化数据

先用RBF核进行实验

使用网格搜索调优C和γ

检查支持向量比例（理想<20%）

大数据集使用LinearSVC或核近似

SVM作为经典算法，在小样本、高维数据和非线性问题中仍具竞争力。掌握其数学本质和调优技巧，可构建强大分类模型。当遇到复杂模式识别问题时，SVM常能提供超出简单模型的性能表现。