【机器学习】10_特征选择与稀疏学习

一、 特征选择的基础概念

特征选择是指从给定的特征集合中选出与当前任务相关的特征子集

  • 特征分类
    • 相关特征:对学习任务有用的属性
    • 无关特征:与任务无关的属性
    • 冗余特征:信息可由其他特征推导出来
  • 必要性
    1. 减轻维数灾难:减少计算量
    2. 降低学习难度:去除干扰,使模型更易捕捉关键因素

二、 特征选择的三大主流方法

特征选择通常包含子集搜索 (如何找)和子集评价(如何评)两个关键环节

1. 过滤式选择 (Filter)

先进行特征选择,再训练学习器,特征选择过程与后续学习器无关

  • 代表算法:Relief
    • 核心逻辑:通过计算"相关统计量"来衡量特征重要性
    • 猜中近邻 (Near-hit) 与 猜错近邻 (Near-miss) :对样本 xix_ixi,在其同类中找最近邻(猜中),在异类中找最近邻(猜错)
    • 晦涩公式解析:δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2\delta^j = \sum_i -diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 通俗解释 :如果一个特征在同类样本之间距离很近(diffdiffdiff小),而在异类样本之间距离很远(diffdiffdiff大),那么 δj\delta^jδj 就会变大。这意味着该特征能够很好地把不同类别的样本"拉开",把同类样本"聚拢",因此该特征很重要

2. 包裹式选择 (Wrapper)

直接将最终学习器的性能(如分类误差)作为评价准则,为学习器"量身定做"特征子集

  • 代表算法:LVW (Las Vegas Wrapper)
    • 它在拉斯维加斯框架下使用随机策略进行搜索,以交叉验证的误差作为准则
    • 优缺点:性能通常优于过滤式,但计算开销巨大,因为每次评价都要重新训练模型

3. 嵌入式选择 (Embedded)

将特征选择与学习器训练过程融为一体,在同一个优化过程中自动完成

  • 核心手段:L1 正则化 (LASSO)

三、 稀疏学习与 L1 正则化

1. 为什么 L1 比 L2 更容易获得稀疏解?

  • 几何解释:L1 范数的等值线是"方形"的(在二维中是菱形),其顶点位于坐标轴上。而平方误差项的等值线(椭圆)与这种有棱角的形状相交时,极大概率会落在顶点上,从而导致某些分量为 0(即稀疏)

2. 近端梯度下降 (PGD)

这是求解 L1 正则化问题的常用方法

  • 晦涩知识点:软阈值算子
    课件中给出了 xk+1x_{k+1}xk+1 的分量闭式解 xk+1i=soft_threshold(zi,λL)x_{k+1}^i = \text{soft\_threshold}(z^i, \frac{\lambda}{L})xk+1i=soft_threshold(zi,Lλ) 通俗解释 :这就像是一个"过滤器"。如果梯度下降后的值 ziz^izi 比较小(绝对值小于 λL\frac{\lambda}{L}Lλ),就直接把它"抹零";如果比较大,就向原点方向收缩。通过这种方式,PGD 能够快速产生稀疏解

四、 稀疏表示与字典学习

  • 目的 :如果数据本身不是稀疏的(稠密矩阵),我们可以通过学习一个"字典" BBB,将原样本 xxx 表示为稀疏向量 α\alphaα
  • 数学形式:min⁡B,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1\min_{B, \alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|2^2 + \lambda \sum{i=1}^m \|\alpha_i\|_1B,αimini=1∑m∥xi−Bαi∥22+λi=1∑m∥αi∥1
    • 第一项:重构误差,要求学到的稀疏表示还原回去后要像原数据
    • 第二项 :L1 范数,要求表示向量 α\alphaα 必须是稀疏的
  • 求解方法:KSVD 算法,通过变量交替优化(固定字典更新系数,固定系数更新字典)来解决

五、 压缩感知与矩阵补全

1. 压缩感知 (Compressed Sensing)

利用信号的稀疏性,用远低于奈奎斯特采样定理要求的频率进行采样,并精确重构原信号

  • 限定等距性 (RIP) :这是矩阵 AAA 必须满足的性质,确保在低维观测时能保留信号距离
  • 等效转换 :将 NP 难的 L0L_0L0 范数最小化问题转化为凸优化的 L1L_1L1 范数最小化问题(LASSO 形式)来求解

2. 矩阵补全 (Matrix Completion)

通过部分观测值推测矩阵中的未知值(如推荐系统中的评分矩阵)

  • 核范数 (Nuclear Norm) :矩阵秩 rank(X)rank(X)rank(X) 是非凸的、难以求解的 。核范数(所有奇异值之和)是秩的最佳凸近似,因此通过最小化核范数来近似求解
相关推荐
小浣熊喜欢揍臭臭10 分钟前
【OpenSkills 使用三】多技能协同开发实战
人工智能·ai编程
_小雨林17 分钟前
Transformer模型、整体结构,编码器与解码器内部组成
人工智能·深度学习·transformer
搭贝18 分钟前
长沙韶光芯材|精准管控工时,夯实高端制造数字化管理根基
大数据·人工智能·低代码·自动化·sass
bst@微胖子21 分钟前
OpenCV 案例四【人脸识别】
人工智能·opencv·计算机视觉
yhdata21 分钟前
281.3亿元!医疗保健提供商数据管理软件市场稳步扩容,2032年有望冲刺468.5亿元
大数据·人工智能·物联网
放下华子我只抽RuiKe523 分钟前
AI大模型开发-实战精讲:从零构建 RFM 会员价值模型(再进阶版:模拟数据 + 动态打分 + 策略落地)
大数据·人工智能·深度学习·elasticsearch·机器学习·搜索引擎·全文检索
Java后端的Ai之路32 分钟前
LangSmith与Prompt Ops:从概念到实践的全面指南
人工智能·langchain·prompt·aigc·langsmith
weixin_4588726139 分钟前
东华复试OJ二刷复盘7
学习
3DVisionary40 分钟前
捕捉亚毫米级裂纹演化!DIC技术为裂纹扩展与抗裂研究带来全新方案
人工智能·python·3d·应变测量·金属3d打印·dic精度检验方法·各向异性
GJGCY1 小时前
2026制造业RPA技术落地指南:7大核心场景架构对比与跨系统集成实践
人工智能·ai·自动化·制造·rpa·制造业·智能体