数据科学每日总结--Day50--机器学习

决策树

一个基本的决策树一般有以下特征：

树结构采用自上而下的递归分治方式
起初，所有训练样本都集中在根节点
属性是类别化的（如果是连续值，则会提前离散化）
训练样本根据所选属性递归划分
测试属性的选择基于启发式或统计指标（例如信息增益、基尼指数）
设置停止条件（如节点中样本全属于同一类，属性用尽，达到预设的最大深度，节点样本数少于某个阈值等）
叶节点的确定：将节点标记为最多的类别（或回归时输出均值）
剪枝策略：预剪枝或后剪枝9. 对于连续属性，算法中一般会动态寻找最佳分割点，而不是必须"提前离散化"

SVM

特点：

学习问题被表述为凸优化问题 ：有高效的算法可以找到全局极小值（二次规划）；对一定程度的噪声是鲁棒的；对比其他方法很多是用贪婪算法，容易陷入局部最优
过拟合通过最大化决策边界的边际来处理：最大化间隔相当于控制模型复杂度（与正则化等价），可以提高泛化能力，缓解过拟合
用户需要提供内核函数类型和成本函数：通过调参达到全局最优解
难以处理缺失值：SVM本身没有处理缺失值的内置机制，需要数据预处理（如填充、删除等）
适用于高维特征空间：在特征数量（维度）远大于样本数量时，SVM（尤其是线性SVM）仍然能保持较好的性能
基于支持向量：模型具有稀疏性------预测时只依赖于少数支持向量，计算较快（但训练可能慢）
可解释性相对较好：线性SVM中权重向量可直接解释特征重要性

Motivation

指的是驱动SVM产生的核心问题和思想来源，即解决什么样的问题，以及为什么SVM的解决方案是自然且有优势的，可以简单概括为以下三个关键点：

寻找最好的决策边界：在分类问题中，可能有无数个超平面（在二维中就是直线）能分开两类数据（如果线性可分）。一般默认一个好的分类器不仅要在训练集上正确分类，还要对未知样本（测试集）有好的泛化能力，而泛化能力好的分类器，其决策边界应该离两类样本都尽可能远。也就是说，要寻找一个能产生最大分类间隔的超平面（在训练样本线性可分的情况下，最大间隔超平面是唯一的，而其他可能有无穷多个分类超平面）。
最大化间隔：分类器的泛化误差上界与"间隔"有关。间隔越大，泛化误差的上界越小；在几何上，决策边界离样本点越远，对数据中的噪声和微小扰动越鲁棒。如果新样本点落在间隔内或离边界很近，分类结果就不可靠；而最大间隔使得分类器对新样本的位置变化不那么敏感。
自然的导出SVM数学模型：（1）间隔定义：一个超平面到某个样本点的几何间隔正比于。对于正确分类的样本，我们希望所有样本满足（归一化后）。（2）最大化间隔问题转化为最小化：，约束为。（3）对于线性不可分的情况，引入松弛变量（软间隔SVM），允许一些样本违反间隔要求，但加入惩罚项。（4）对于非线性可分的情况，引入核技巧：将数据映射到高维特征空间，使其在该空间中线性可分，而计算依然在原空间通过核函数完成，避免了显式的高维计算