数据科学每日总结--Day50--机器学习

决策树

一个基本的决策树一般有以下特征:

  1. 树结构采用自上而下的递归分治方式

  2. 起初,所有训练样本都集中在根节点

  3. 属性是类别化的(如果是连续值,则会提前离散化)

  4. 训练样本根据所选属性递归划分

  5. 测试属性的选择基于启发式或统计指标(例如信息增益、基尼指数)

  6. 设置停止条件(如节点中样本全属于同一类,属性用尽,达到预设的最大深度,节点样本数少于某个阈值等)

  7. 叶节点的确定:将节点标记为最多的类别(或回归时输出均值)

  8. 剪枝策略:预剪枝或后剪枝9. 对于连续属性,算法中一般会动态寻找最佳分割点,而不是必须"提前离散化"

SVM

特点:

  1. 学习问题被表述为凸优化问题 :有高效的算法可以找到全局极小值(二次规划);对一定程度的噪声是鲁棒的;对比其他方法很多是用贪婪算法,容易陷入局部最优

  2. 过拟合通过最大化决策边界的边际来处理:最大化间隔相当于控制模型复杂度(与正则化等价),可以提高泛化能力,缓解过拟合

  3. 用户需要提供内核函数类型和成本函数:通过调参达到全局最优解

  4. 难以处理缺失值:SVM本身没有处理缺失值的内置机制,需要数据预处理(如填充、删除等)

  5. 适用于高维特征空间:在特征数量(维度)远大于样本数量时,SVM(尤其是线性SVM)仍然能保持较好的性能

  6. 基于支持向量:模型具有稀疏性------预测时只依赖于少数支持向量,计算较快(但训练可能慢)

  7. 可解释性相对较好:线性SVM中权重向量可直接解释特征重要性

Motivation

指的是驱动SVM产生的核心问题和思想来源,即解决什么样的问题,以及为什么SVM的解决方案是自然且有优势的,可以简单概括为以下三个关键点:

  1. 寻找最好的决策边界:在分类问题中,可能有无数个超平面(在二维中就是直线)能分开两类数据(如果线性可分)。一般默认一个好的分类器不仅要在训练集上正确分类,还要对未知样本(测试集)有好的泛化能力,而泛化能力好的分类器,其决策边界应该离两类样本都尽可能远。也就是说,要寻找一个能产生最大分类间隔的超平面(在训练样本线性可分的情况下,最大间隔超平面是唯一的,而其他可能有无穷多个分类超平面)。

  2. 最大化间隔:分类器的泛化误差上界与"间隔"有关。间隔越大,泛化误差的上界越小;在几何上,决策边界离样本点越远,对数据中的噪声和微小扰动越鲁棒。如果新样本点落在间隔内或离边界很近,分类结果就不可靠;而最大间隔使得分类器对新样本的位置变化不那么敏感。

  3. 自然的导出SVM数学模型:(1)间隔定义:一个超平面 到某个样本点的几何间隔正比于 。对于正确分类的样本,我们希望所有样本满足 (归一化后)。(2)最大化间隔问题转化为最小化: ,约束为 。(3)对于线性不可分的情况,引入松弛变量(软间隔SVM),允许一些样本违反间隔要求,但加入惩罚项。(4)对于非线性可分的情况,引入核技巧:将数据映射到高维特征空间,使其在该空间中线性可分,而计算依然在原空间通过核函数完成,避免了显式的高维计算

相关推荐
NAGNIP12 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab13 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab13 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP17 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年17 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼17 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS17 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区18 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈18 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang19 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx