【机器学习】10_特征选择与稀疏学习

一、 特征选择的基础概念

特征选择是指从给定的特征集合中选出与当前任务相关的特征子集

  • 特征分类
    • 相关特征:对学习任务有用的属性
    • 无关特征:与任务无关的属性
    • 冗余特征:信息可由其他特征推导出来
  • 必要性
    1. 减轻维数灾难:减少计算量
    2. 降低学习难度:去除干扰,使模型更易捕捉关键因素

二、 特征选择的三大主流方法

特征选择通常包含子集搜索 (如何找)和子集评价(如何评)两个关键环节

1. 过滤式选择 (Filter)

先进行特征选择,再训练学习器,特征选择过程与后续学习器无关

  • 代表算法:Relief
    • 核心逻辑:通过计算"相关统计量"来衡量特征重要性
    • 猜中近邻 (Near-hit) 与 猜错近邻 (Near-miss) :对样本 xix_ixi,在其同类中找最近邻(猜中),在异类中找最近邻(猜错)
    • 晦涩公式解析:δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2\delta^j = \sum_i -diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 通俗解释 :如果一个特征在同类样本之间距离很近(diffdiffdiff小),而在异类样本之间距离很远(diffdiffdiff大),那么 δj\delta^jδj 就会变大。这意味着该特征能够很好地把不同类别的样本"拉开",把同类样本"聚拢",因此该特征很重要

2. 包裹式选择 (Wrapper)

直接将最终学习器的性能(如分类误差)作为评价准则,为学习器"量身定做"特征子集

  • 代表算法:LVW (Las Vegas Wrapper)
    • 它在拉斯维加斯框架下使用随机策略进行搜索,以交叉验证的误差作为准则
    • 优缺点:性能通常优于过滤式,但计算开销巨大,因为每次评价都要重新训练模型

3. 嵌入式选择 (Embedded)

将特征选择与学习器训练过程融为一体,在同一个优化过程中自动完成

  • 核心手段:L1 正则化 (LASSO)

三、 稀疏学习与 L1 正则化

1. 为什么 L1 比 L2 更容易获得稀疏解?

  • 几何解释:L1 范数的等值线是"方形"的(在二维中是菱形),其顶点位于坐标轴上。而平方误差项的等值线(椭圆)与这种有棱角的形状相交时,极大概率会落在顶点上,从而导致某些分量为 0(即稀疏)

2. 近端梯度下降 (PGD)

这是求解 L1 正则化问题的常用方法

  • 晦涩知识点:软阈值算子
    课件中给出了 xk+1x_{k+1}xk+1 的分量闭式解 xk+1i=soft_threshold(zi,λL)x_{k+1}^i = \text{soft\_threshold}(z^i, \frac{\lambda}{L})xk+1i=soft_threshold(zi,Lλ) 通俗解释 :这就像是一个"过滤器"。如果梯度下降后的值 ziz^izi 比较小(绝对值小于 λL\frac{\lambda}{L}Lλ),就直接把它"抹零";如果比较大,就向原点方向收缩。通过这种方式,PGD 能够快速产生稀疏解

四、 稀疏表示与字典学习

  • 目的 :如果数据本身不是稀疏的(稠密矩阵),我们可以通过学习一个"字典" BBB,将原样本 xxx 表示为稀疏向量 α\alphaα
  • 数学形式:min⁡B,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1\min_{B, \alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|2^2 + \lambda \sum{i=1}^m \|\alpha_i\|_1B,αimini=1∑m∥xi−Bαi∥22+λi=1∑m∥αi∥1
    • 第一项:重构误差,要求学到的稀疏表示还原回去后要像原数据
    • 第二项 :L1 范数,要求表示向量 α\alphaα 必须是稀疏的
  • 求解方法:KSVD 算法,通过变量交替优化(固定字典更新系数,固定系数更新字典)来解决

五、 压缩感知与矩阵补全

1. 压缩感知 (Compressed Sensing)

利用信号的稀疏性,用远低于奈奎斯特采样定理要求的频率进行采样,并精确重构原信号

  • 限定等距性 (RIP) :这是矩阵 AAA 必须满足的性质,确保在低维观测时能保留信号距离
  • 等效转换 :将 NP 难的 L0L_0L0 范数最小化问题转化为凸优化的 L1L_1L1 范数最小化问题(LASSO 形式)来求解

2. 矩阵补全 (Matrix Completion)

通过部分观测值推测矩阵中的未知值(如推荐系统中的评分矩阵)

  • 核范数 (Nuclear Norm) :矩阵秩 rank(X)rank(X)rank(X) 是非凸的、难以求解的 。核范数(所有奇异值之和)是秩的最佳凸近似,因此通过最小化核范数来近似求解
相关推荐
共创splendid--与您携手9 小时前
AI读取前端项目生成skill.md
前端·人工智能·ai
gis分享者10 小时前
AI数字营销实测体验,GEO效果查询功能体验
人工智能·csdn·geo·数字营销·实测体验·效果查询
莱歌数字10 小时前
轻出20%性能:三维拓扑优化如何重塑无人机电子设备散热格局
人工智能·科技·制造·cae·散热
猿小猴子11 小时前
主流 AI IDE 之一的「DeepSeek-Reasonix 」介绍
人工智能·ai·deepseek·reasonix
装不满的克莱因瓶11 小时前
链式法则如何传递参数误差 —— 深入理解神经网络中的梯度传播
人工智能·python·深度学习·神经网络·数学·机器学习·ai
Anastasiozzzz11 小时前
从有限状态机到智能体图:传统 FSM 与 Agent Graph的演进
java·人工智能·python·ai
程序员cxuan17 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan17 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合17 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος190017 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面