数据科学每日总结--Day50--机器学习

决策树

一个基本的决策树一般有以下特征:

  1. 树结构采用自上而下的递归分治方式

  2. 起初,所有训练样本都集中在根节点

  3. 属性是类别化的(如果是连续值,则会提前离散化)

  4. 训练样本根据所选属性递归划分

  5. 测试属性的选择基于启发式或统计指标(例如信息增益、基尼指数)

  6. 设置停止条件(如节点中样本全属于同一类,属性用尽,达到预设的最大深度,节点样本数少于某个阈值等)

  7. 叶节点的确定:将节点标记为最多的类别(或回归时输出均值)

  8. 剪枝策略:预剪枝或后剪枝9. 对于连续属性,算法中一般会动态寻找最佳分割点,而不是必须"提前离散化"

SVM

特点:

  1. 学习问题被表述为凸优化问题 :有高效的算法可以找到全局极小值(二次规划);对一定程度的噪声是鲁棒的;对比其他方法很多是用贪婪算法,容易陷入局部最优

  2. 过拟合通过最大化决策边界的边际来处理:最大化间隔相当于控制模型复杂度(与正则化等价),可以提高泛化能力,缓解过拟合

  3. 用户需要提供内核函数类型和成本函数:通过调参达到全局最优解

  4. 难以处理缺失值:SVM本身没有处理缺失值的内置机制,需要数据预处理(如填充、删除等)

  5. 适用于高维特征空间:在特征数量(维度)远大于样本数量时,SVM(尤其是线性SVM)仍然能保持较好的性能

  6. 基于支持向量:模型具有稀疏性------预测时只依赖于少数支持向量,计算较快(但训练可能慢)

  7. 可解释性相对较好:线性SVM中权重向量可直接解释特征重要性

Motivation

指的是驱动SVM产生的核心问题和思想来源,即解决什么样的问题,以及为什么SVM的解决方案是自然且有优势的,可以简单概括为以下三个关键点:

  1. 寻找最好的决策边界:在分类问题中,可能有无数个超平面(在二维中就是直线)能分开两类数据(如果线性可分)。一般默认一个好的分类器不仅要在训练集上正确分类,还要对未知样本(测试集)有好的泛化能力,而泛化能力好的分类器,其决策边界应该离两类样本都尽可能远。也就是说,要寻找一个能产生最大分类间隔的超平面(在训练样本线性可分的情况下,最大间隔超平面是唯一的,而其他可能有无穷多个分类超平面)。

  2. 最大化间隔:分类器的泛化误差上界与"间隔"有关。间隔越大,泛化误差的上界越小;在几何上,决策边界离样本点越远,对数据中的噪声和微小扰动越鲁棒。如果新样本点落在间隔内或离边界很近,分类结果就不可靠;而最大间隔使得分类器对新样本的位置变化不那么敏感。

  3. 自然的导出SVM数学模型:(1)间隔定义:一个超平面 到某个样本点的几何间隔正比于 。对于正确分类的样本,我们希望所有样本满足 (归一化后)。(2)最大化间隔问题转化为最小化: ,约束为 。(3)对于线性不可分的情况,引入松弛变量(软间隔SVM),允许一些样本违反间隔要求,但加入惩罚项。(4)对于非线性可分的情况,引入核技巧:将数据映射到高维特征空间,使其在该空间中线性可分,而计算依然在原空间通过核函数完成,避免了显式的高维计算

相关推荐
ting94520003 分钟前
深入解析 Social Fetch 机制:原理、架构、应用场景、实战落地与性能优化全攻略
人工智能·性能优化·架构
阿瑞说项目管理3 分钟前
2026 实战入门指南:企业 Agent 到底能解决哪些工作问题?
大数据·人工智能·agent·智能体·企业级ai
ZOOOOOOU4 分钟前
云边端协同架构下,门禁权限引擎的离线决策与策略续存实现
大数据·人工智能·架构
han_5 分钟前
一篇看懂国内外主流大模型:GPT、Claude、Gemini、DeepSeek、通义千问有什么区别?
前端·人工智能·llm
189228048615 分钟前
EMMC32G-TA28闪存EMMCH26M78103CCR
大数据·人工智能·缓存
新知图书8 分钟前
工作分解结构辅助生成(使用千问)
人工智能·千问·高效办公
love530love13 分钟前
ComfyUI MediaPipe 终极填坑:解决 incompatible function arguments 报错,基于代理模式的猴子补丁升级版
人工智能·windows·comfyui·mediapipe·猴子补丁·monkey patch·python 3.12
dingzd9516 分钟前
Facebook强化原创内容分发后跨境品牌如何重做素材策略
大数据·人工智能·新媒体运营·内容营销·跨境
卢子墨18 分钟前
Hermes Agent + 钉钉适配文档(重点解决图片引用识别问题)
人工智能·aigc·harness
小民AI实战笔记22 分钟前
GitHub Actions + 钉钉,半小时搭个免费的热榜推送机器人
人工智能·aigc·ai编程