SVM 面试题总结

一、SVM 的缺点

1. 难以适应超大规模数据集（算力与内存瓶颈）

这是 SVM 在大数据时代面临的最大痛点。

内存消耗大：SVM 的求解依赖于二次规划问题。如果使用非线性核，算法需要计算并存储一个大小为 $N \\times N$ 的核矩阵（Gram 矩阵，N 为样本个数）。当数据量达到百万级别时，这个矩阵会撑爆绝大多数计算机的内存。
训练时间长：求解这个矩阵的计算复杂度通常介于 $O(N\^2)$ 到 $O(N\^3)$ 之间。当数据量激增时，SVM 的训练时间会呈指数级上升。
工程平替：在面对如垃圾邮件检测、广告点击率预测等海量数据任务时，工业界往往会放弃 SVM，转而使用训练极其高效的朴素贝叶斯、逻辑回归（Logistic Regression）或基于梯度的深度神经网络。

2. 对核心参数和核函数的选择极度敏感

SVM 性能的优劣，几乎完全取决于核函数（Kernel）的选择 以及超参数的设定（如软间隔惩罚参数 C、RBF 核的 $\\gamma$ 值）。

缺乏通用指导标准：目前并没有一套完美的理论方法来指导对于特定数据集究竟该用哪种核函数。
严重依赖经验与算力：参数的选取带有很大的随意性，通常只能依靠人工经验，或者结合交叉验证（Cross Validation）进行极其耗时的网格搜索（Grid Search）。这就导致 SVM 的调参过程往往变成了一门"玄学"和体力活。

3. 解决多分类问题存在天然壁垒

底层基因限制：经典的 SVM 从数学建模的最初始阶段（寻找分隔超平面），就是专门为二分类问题（ $y \\in \\{-1, 1\\}$ ）量身定制的。
组合方案的妥协：要在实际应用中解决多分类问题，必须强行拼凑多个二分类器（如我们之前探讨过的 OvO、OvR、DAG-SVM 决策树）。这些组合模式要么会引发极其庞大的计算开销（如 OvO），要么会面临正负样本极度不平衡和分类精度下降的风险（如 OvR）。相比之下，决策树或神经网络则具备天然的多分类输出能力。

4. 对缺失数据极度敏感

距离度量失效 ：SVM 的核心机制（无论是最大化几何间隔，还是利用核函数映射高维空间）都极度依赖于数据点之间的空间距离 或内积计算。
只要样本中存在缺失的特征维度，两个向量之间的内积就无法正常计算，这会导致该样本根本无法参与超平面的构建。因此，在使用 SVM 前，必须对数据进行非常严密的缺失值填补和预处理。

5. 模型可解释性较差（"黑盒"效应）

当使用线性 SVM 时，我们还能通过法向量 $\\beta$ 的权重大小来解释哪个特征更重要。
但是，一旦引入了强大的非线性核函数（如 RBF 径向基核），数据被映射到了不可见的无限维特征空间中。此时，最终的决策边界变得极其复杂，人类完全无法直观理解模型到底是基于什么逻辑做出的判断。在医疗诊断、金融风控等对模型可解释性要求极高的领域，这是一个巨大的劣势。

6. 无法直接输出严格的概率值

在实际业务中，我们往往不仅需要知道一个样本"属于哪一类"，还需要知道"属于这一类的概率是多少"（比如 90% 的概率是恶性肿瘤）。
逻辑回归（Logistic Regression）可以天然输出 $0, 1$ 之间的标准概率。而 SVM 的输出 $f(x) = \\beta\^T x + b$ 只是一个代表几何距离的置信度分数（可以是 5.2，也可以是 -3.8），并不是概率。虽然可以通过 Platt Scaling 等后处理技术将其强行映射为概率，但这又会额外增加计算成本，且准确性受限。

二、如何选择核函数

一句话：实践中通常优先选择 RBF 核函数！！！

在实际的机器学习工程中，选择哪种核函数（以及是否使用 SVM）通常取决于特征的数量（设为 n） 与**训练样本的数量（设为 m）**之间的相对关系。

1. 核心决策树（吴恩达经验法则）

场景 A：特征维度 n 很大，甚至和样本量 m 差不多（例如 $n=10000$ , $m=10 \\sim 1000$ ）

典型应用：文本分类问题、基因序列分析。
最佳选择 ：线性核 (Linear Kernel) 或逻辑回归 (Logistic Regression)。
背后逻辑 ：当特征维度已经极高时，数据在原始空间中大概率已经是线性可分 的了。此时如果再强行使用非线性核映射到更高维的空间，不仅毫无必要，反而会带来极高的过拟合（Overfitting）风险。线性核训练速度极快，且不需要调参（除了 C），是高维稀疏数据的首选。

场景 B：特征维度 n 较小，样本量 m 大小适中（例如 $n=1 \\sim 1000$ , $m=10 \\sim 10000$ ）

典型应用：常规的表格类数据、中小规模的非线性分类。
最佳选择 ：高斯核 (RBF Kernel)。
背后逻辑：特征少意味着数据在低维空间很可能线性不可分。由于样本量 m 适中，计算 $m \\times m$ 的核矩阵（Gram 矩阵）的内存和时间开销完全在计算机的承受范围内。此时，利用 RBF 核"映射到无穷维"的超能力，可以拟合出极其完美的非线性决策边界。

场景 C：特征维度 n 较小，但样本量 m 极其巨大（例如 $n=1 \\sim 1000$ , $m \> 50000$ ）

典型应用：海量用户行为预测、大型工业数据集。
最佳选择 ：人工特征工程 + 线性核/逻辑回归。
背后逻辑 ：如果强行对海量样本使用 RBF 核，由于需要计算 $O(m\^2)$ 甚至 $O(m\^3)$ 复杂度的二次规划问题，训练时间将极其漫长，甚至直接内存溢出（这正是前一节提到的 SVM 的致命缺点）。聪明的做法是：工程师手动组合一些非线性特征（如添加特征的平方、交叉项），人为提升特征维度，然后退回到场景 A，使用速度极快的线性分类器。

2. 核函数的内部鄙视链：为什么总是 RBF？

如果我们决定要使用非线性核，为什么大家几乎一致推荐 RBF 核，而很少使用多项式核或 Sigmoid 核？

线性核的降维打击：线性核其实是高斯核的一种特例（在某些极限参数下，RBF 的表现与线性核非常相似）。
多项式核的参数灾难 ：多项式核不仅超参数多（需要调阶数 d、常数项、系数），而且它的函数值域不稳定。当特征值较大或阶数 d 较高时，内积结果很容易呈指数级爆炸走向无穷大 ；反之则可能衰减到无穷小。
RBF 核的绝对稳定性 ：RBF 核计算的是指数衰减距离，它的结果永远被极其稳定地死死限制在 (0, 1] 的区间内。这使得它在任何数据尺度下都不会出现数值溢出，表现极其稳健。
Sigmoid 核的理论缺陷：如前所述，Sigmoid 核在很多参数组合下根本不满足 Mercer 定理，连有效的核函数都算不上。

3. 工程调参的代价

线性核：几乎"开箱即用"，训练速度飞快，顶多用交叉验证选一下容错率 C。
高斯核 (RBF) ：必须进行极其严格的**交叉验证（Cross Validation）**和网格搜索，寻找最佳的惩罚参数 C 和影响半径 $\\gamma$ 。如果参数没调好，RBF 核的效果可能还不如线性核。所以，享受无穷维魔法的前提是付出大量调参的算力时间。

三、样本失衡对 SVM 的影响

1. 什么是样本失衡 (Class Imbalance)？

定义：在分类任务中，不同类别的训练样本数量相差极其悬殊。

直观例子：

信用卡欺诈检测：100,000 笔正常交易（多数类 / Majority Class），只有 10 笔是盗刷（少数类 / Minority Class）。比例 10000:1。
罕见病诊断：999 个健康人，1 个患病者。比例 999:1。
工业缺陷检测：流水线上绝大多数零件都是合格的，只有极少数有瑕疵。

2. 样本失衡对 SVM 分类结果的致命影响

回顾我们推导出的 SVC 软间隔目标函数：

\\min_{\\beta, b, \\epsilon} \\frac{1}{2}\\\|\\beta\\\|\^2 + C \\sum_{i=1}\^N \\epsilon_i

请盯住公式后面的惩罚项： $C \\sum_{i=1}\^N \\epsilon_i$ （我们要最小化所有样本的松弛变量之和）。

当样本严重失衡（比如负样本 990 个，正样本 10 个）时，会发生以下极其可怕的现象：

超平面被"推"向少数类（边界偏移） ：由于负样本有 990 个，如果超平面稍微偏向负样本，可能会导致几百个负样本产生一点点误差 $\\epsilon_i$ ，累加起来的总惩罚极其庞大！为了最小化总损失 ，SVM 算法会变得非常"功利"。它宁愿把那 10 个正样本全部牺牲掉（让这 10 个正样本产生很大的 $\\epsilon_i$ ），以此换取 990 个负样本的绝对安全。分类超平面会严重向少数类偏移，甚至直接把所有样本判定为多数类。
支持向量比例失衡：多数类由于基数庞大，在边界附近的支持向量绝对数量也会远超少数类，导致多数类在决定超平面位置时拥有了压倒性的话语权。

🔧 SVM 的解法（代价敏感学习 / Cost-Sensitive Learning）：

既然问题出在大家都用同一个惩罚权重 C，我们在工程上通常会给不同类别分配不同的惩罚权重 （在代码中通常是 class_weight='balanced' 参数）：

多数类（正常交易）：权重设置很小（如 C_- = 1）。
少数类（欺诈交易）：权重设置极大（如 C_+ = 1000）。

告诉模型："错杀一个负样本罚 1 块钱，但放过一个正样本罚 1000 块钱！" 这样超平面就会乖乖地移回正确的位置。

3. 样本失衡时，如何评价分类器的好坏？

在样本失衡的情况下，**"准确率 (Accuracy)" 是最大的谎言！**试想罕见病诊断（999健康，1患病）。如果一个庸医（分类器）完全不看病，对所有人都直接宣布"没病"，他的准确率高达 $\\frac{999}{1000} = 99.9\\%$ ！但这个模型是完全失效的，因为它把唯一那个真正的病人漏掉了。

因此，我们需要引入以下更科学的评价指标。首先有以下四个指标定义：

TP (True Positive)：真实的少数类，被正确抓出来了。
FN (False Negative) ：真实的少数类，被错当成多数类漏掉了（代价极其高昂！）。
FP (False Positive)：真实的多数类，被误判为少数类。
TN (True Negative)：真实的多数类，被正确识别。

3.1. 精确率 (Precision / 查准率)

P = \\frac{TP}{TP + FP}

含义：在模型挑出来的所有"嫌疑人"中，有多少是真的坏人？

应用：当你希望"抓出来的必须得是准的，不要冤枉好人"时看重此指标。（如：发垃圾邮件拦截，千万别把重要邮件当垃圾拦截了）。

3.2. 召回率 (Recall / 查全率 / 敏感度 Sensitivity)

R = \\frac{TP}{TP + FN}

含义：在所有"真正的坏人"中，模型成功抓出了多少个？

应用（失衡数据中最看重的指标）：当你希望"宁可错杀一千，绝不放过一个"时极度看重此指标。（如：癌症筛查、地震预警、欺诈检测。把没病的人误判为有病，大不了多做一次复查(FP)；但把有病的人判为没病(FN)，代价是生命）。

3.3. F1 分数 (F1-Score)

F1 = 2 \\times \\frac{Precision \\times Recall}{Precision + Recall}

含义：精确率和召回率是一对矛盾体（抓得越严，漏得越多；抓得越松，冤枉得越多）。F1 分数是两者的调和平均数，只有当 Precision 和 Recall 都很高时，F1 才会高。它是评估不平衡数据集综合性能的黄金指标。

3.4. ROC 曲线与 AUC (Area Under Curve)

ROC 曲线是不受样本比例影响的抗造指标。无论正负样本比例怎么变化，ROC 曲线的形状基本保持不变。
AUC 值（ROC 曲线下的面积）取值在 0.5 到 1 之间。AUC 越接近 1，模型区分正负样本的能力越强。

ROC 曲线 的全称是 接收者操作特征曲线 (Receiver Operating Characteristic Curve)。

1. 坐标轴的含义（警察抓小偷的隐喻）

ROC 曲线的坐标轴上是两个相互博弈的指标：

纵轴 (Y轴) = TPR (True Positive Rate，查全率/真正率)：

公式：TP / (TP + FN)

白话：在所有真正的小偷中，警察成功抓住了多少个？（越大越好）

横轴 (X轴) = FPR (False Positive Rate，误杀率/假正率)：

公式：FP / (FP + TN)

白话：在所有真正的良民中，警察冤枉了多少个？（越小越好）

2. 曲线是怎么画出来的？（阈值的滑动）

任何一个分类器（比如逻辑回归或支持向量机），最终输出的往往不是绝对的类别，而是一个概率值或置信度 （比如"有 80% 的概率是小偷"）。默认情况下，我们以 0.5 作为阈值（大于 0.5 就抓）。但在现实中，你可以改变这个阈值：

极度严苛（阈值设为 0.99）：警察只抓那些脸上写着"我是小偷"的人。

结果：一个好人也不会被冤枉（FPR 极低，接近 0），但会漏掉绝大部分狡猾的小偷（TPR 极低）。这对应 ROC 曲线左下角的点 (0,0)。

极度宁滥勿缺（阈值设为 0.01）：警察把街上的人全抓了。

结果：所有小偷都被抓住了（TPR = 100%），但也把所有好人都冤枉了（FPR = 100%）。这对应 ROC 曲线右上角的点 (1,1)。

ROC 曲线，就是把阈值从 1.0 慢慢滑动到 0.0 时，（FPR, TPR）这两个数值在图上描绘出来的轨迹！

3. AUC (Area Under Curve) ------ 模型的终极成绩单

既然 ROC 是一条曲线，我们怎么直观地比较两个模型谁更厉害呢？答案是计算曲线下的面积（AUC）。

AUC = 1.0（完美模型）：曲线紧贴左上角。这意味着模型能在冤枉 0 个好人的情况下，抓住 100% 的小偷。

AUC = 0.5（瞎猜模型）：图中的那条对角虚线。跟抛硬币没区别，抓对一个人的代价是必定冤枉一个人。

常规好模型：AUC 通常在 0.7 到 0.9 之间。

4. 为什么样本失衡时，大家最爱 ROC？

这是一个极其伟大的数学设计！你看 TPR 和 FPR 的计算公式：

TPR 只在正样本（小偷）内部计算比例。

FPR 只在负样本（良民）内部计算比例。

因为它们各算各的，所以无论街上是 10 个小偷配 10 个良民，还是 10 个小偷配 10000 个良民，ROC 曲线的形状几乎完全不会变形！ 它剥离了"样本比例"这层伪装，极其纯粹地衡量了模型**"把正样本排在负样本前面"的绝对排序能力**。这就是为什么在风控、医疗等严重失衡的领域，AUC 是永远的神。