【机器学习】10_特征选择与稀疏学习

特征选择是指从给定的特征集合中选出与当前任务相关的特征子集

特征选择通常包含子集搜索 （如何找）和子集评价（如何评）两个关键环节

先进行特征选择，再训练学习器，特征选择过程与后续学习器无关

代表算法：Relief
- 核心逻辑：通过计算"相关统计量"来衡量特征重要性
- 猜中近邻 (Near-hit) 与猜错近邻 (Near-miss) ：对样本 xix_ixi，在其同类中找最近邻（猜中），在异类中找最近邻（猜错）
- 晦涩公式解析：δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2\delta^j = \sum_i -diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 通俗解释 ：如果一个特征在同类样本之间距离很近（diffdiffdiff小），而在异类样本之间距离很远（diffdiffdiff大），那么 δj\delta^jδj 就会变大。这意味着该特征能够很好地把不同类别的样本"拉开"，把同类样本"聚拢"，因此该特征很重要

直接将最终学习器的性能（如分类误差）作为评价准则，为学习器"量身定做"特征子集

代表算法：LVW (Las Vegas Wrapper)
- 它在拉斯维加斯框架下使用随机策略进行搜索，以交叉验证的误差作为准则
- 优缺点：性能通常优于过滤式，但计算开销巨大，因为每次评价都要重新训练模型

将特征选择与学习器训练过程融为一体，在同一个优化过程中自动完成

几何解释：L1 范数的等值线是"方形"的（在二维中是菱形），其顶点位于坐标轴上。而平方误差项的等值线（椭圆）与这种有棱角的形状相交时，极大概率会落在顶点上，从而导致某些分量为 0（即稀疏）

这是求解 L1 正则化问题的常用方法

晦涩知识点：软阈值算子
课件中给出了 xk+1x_{k+1}xk+1 的分量闭式解 xk+1i=soft_threshold(zi,λL)x_{k+1}^i = \text{soft\_threshold}(z^i, \frac{\lambda}{L})xk+1i=soft_threshold(zi,Lλ) 通俗解释 ：这就像是一个"过滤器"。如果梯度下降后的值 ziz^izi 比较小（绝对值小于 λL\frac{\lambda}{L}Lλ），就直接把它"抹零"；如果比较大，就向原点方向收缩。通过这种方式，PGD 能够快速产生稀疏解

目的：如果数据本身不是稀疏的（稠密矩阵），我们可以通过学习一个"字典" BBB，将原样本 xxx 表示为稀疏向量 α\alphaα
数学形式：min⁡B,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1\min_{B, \alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|2^2 + \lambda \sum{i=1}^m \|\alpha_i\|_1B,αimini=1∑m∥xi−Bαi∥22+λi=1∑m∥αi∥1
- 第一项：重构误差，要求学到的稀疏表示还原回去后要像原数据
- 第二项 ：L1 范数，要求表示向量 α\alphaα 必须是稀疏的
求解方法：KSVD 算法，通过变量交替优化（固定字典更新系数，固定系数更新字典）来解决

利用信号的稀疏性，用远低于奈奎斯特采样定理要求的频率进行采样，并精确重构原信号

通过部分观测值推测矩阵中的未知值（如推荐系统中的评分矩阵）

核范数 (Nuclear Norm) ：矩阵秩 rank(X)rank(X)rank(X) 是非凸的、难以求解的。核范数（所有奇异值之和）是秩的最佳凸近似，因此通过最小化核范数来近似求解