1. 超平面与支持向量的定义
超平面是用于在N维空间中划分两类样本的N−1维分界面,当维度为二维时即为一条直线,三维时为一个平面。
支持向量是距离超平面最近的样本点,它们决定超平面的位置和方向,是构建模型的关键。
2. 间隔最大化原则
SVM的优化目标是最大化两类样本到超平面的最小距离(即margin),以增强模型的泛化能力和抗干扰能力。
最优分类边界应位于两类样本"中线",使其两边的间距相等且最大,避免模型因微小扰动导致分类错误。
3. 分类决策函数与数学建模
决策函数由超平面公式 W^T X + b = 0 表示,点落入该平面一侧对应正类或负类,依据 y_i (w^T x_i + b) \geq 1 判断是否满足分类条件。
引入 y_i(标签)对原始距离公式进行符号统一,移除绝对值,使约束条件变为 y_i(w^T x_i + b) \geq 1,保证所有样本被正确分类。
4. 模型优化过程与拉格朗日乘子法
通过引入拉格朗日乘子法,将原问题转化为对偶问题,将原问题中的参数 W 和 b 转化为新的对偶变量 \alpha 来表征,从而降低求解复杂度。
在对偶问题中,最终得到 W = \sum_{i=1}^n \alpha_i y_i x_i,并通过 \sum \alpha_i y_i = 0 及原始约束条件求解 b,完成模型训练。
5. 极大值与极小值的转换
- 在优化过程中,原始的最大值问题通过数学变换转化为极小值问题,例如将"a - b"与"b - a"视为互为相反数,极大值与极小值相互对应。
- 这种转换简化了求导过程,核心在于"求最大值等价于求最小值"的逻辑关系。
6. 松弛因子的应用与意义
- 引入松弛因子(slack variable)应对异常值或噪声点的影响,允许部分样本不满足理想间隔约束(原条件为 ≥1,调整为 ≥(1 - ξ))。
- 松弛因子越大,模型越宽容,容忍错误越多;越小则约束越强,分类越严格。
7. C参数的调节作用
- 新增参数C作为惩罚系数,出现在松弛因子前,控制模型对误分类的容忍程度。
- C值越大,目标函数越"陡峭",迫使模型尽量减少误判,分类越严格;C值越小,模型越"松散",错误容忍度越高。
8. 低维不可分问题的解决路径
- 当数据在低维空间无法线性分离时,可通过非线性映射(如核函数)转换到高维空间,实现可分。
- 举例说明:原本需用复杂曲线划分的边界,在高维空间中可能被一条直线有效分割。
- 此方法依赖于核函数(kernel function),是支持向量机实现非线性分类的关键机制。
9.总结
-
基本需求:在样本空间中找到一个划分超平面,将不同类别的样本分开。
-
理想中的超平面:对训练样本局部扰动有最好的"容忍性"。
-
优化目标:最大化margin(间隔)。
-
支持向量:虽然PPT中没有详细解释,但支持向量是离超平面最近的点,对超平面的确定起到关键作用。
-
超平面的定义:超平面是从n维空间到n-1维空间的映射子空间,可以用一个n维向量和一个实数定义。例如,三维空间中的超平面是二维平面,二维空间中的超平面是一维直线。超平面可以用方程表示。
-
点到超平面的距离:虽然PPT中没有给出具体公式,但这是SVM中计算间隔的重要部分。