一、 特征选择的基础概念
特征选择是指从给定的特征集合中选出与当前任务相关的特征子集
- 特征分类 :
- 相关特征:对学习任务有用的属性
- 无关特征:与任务无关的属性
- 冗余特征:信息可由其他特征推导出来
- 必要性 :
- 减轻维数灾难:减少计算量
- 降低学习难度:去除干扰,使模型更易捕捉关键因素
二、 特征选择的三大主流方法
特征选择通常包含子集搜索 (如何找)和子集评价(如何评)两个关键环节
1. 过滤式选择 (Filter)
先进行特征选择,再训练学习器,特征选择过程与后续学习器无关
- 代表算法:Relief
- 核心逻辑:通过计算"相关统计量"来衡量特征重要性
- 猜中近邻 (Near-hit) 与 猜错近邻 (Near-miss) :对样本 xix_ixi,在其同类中找最近邻(猜中),在异类中找最近邻(猜错)
- 晦涩公式解析:δj=∑i−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2\delta^j = \sum_i -diff(x_i^j, x_{i,nh}^j)^2 + diff(x_i^j, x_{i,nm}^j)^2δj=i∑−diff(xij,xi,nhj)2+diff(xij,xi,nmj)2 通俗解释 :如果一个特征在同类样本之间距离很近(diffdiffdiff小),而在异类样本之间距离很远(diffdiffdiff大),那么 δj\delta^jδj 就会变大。这意味着该特征能够很好地把不同类别的样本"拉开",把同类样本"聚拢",因此该特征很重要
2. 包裹式选择 (Wrapper)
直接将最终学习器的性能(如分类误差)作为评价准则,为学习器"量身定做"特征子集
- 代表算法:LVW (Las Vegas Wrapper)
- 它在拉斯维加斯框架下使用随机策略进行搜索,以交叉验证的误差作为准则
- 优缺点:性能通常优于过滤式,但计算开销巨大,因为每次评价都要重新训练模型
3. 嵌入式选择 (Embedded)
将特征选择与学习器训练过程融为一体,在同一个优化过程中自动完成
- 核心手段:L1 正则化 (LASSO)
三、 稀疏学习与 L1 正则化
1. 为什么 L1 比 L2 更容易获得稀疏解?
- 几何解释:L1 范数的等值线是"方形"的(在二维中是菱形),其顶点位于坐标轴上。而平方误差项的等值线(椭圆)与这种有棱角的形状相交时,极大概率会落在顶点上,从而导致某些分量为 0(即稀疏)
2. 近端梯度下降 (PGD)
这是求解 L1 正则化问题的常用方法
- 晦涩知识点:软阈值算子
课件中给出了 xk+1x_{k+1}xk+1 的分量闭式解 xk+1i=soft_threshold(zi,λL)x_{k+1}^i = \text{soft\_threshold}(z^i, \frac{\lambda}{L})xk+1i=soft_threshold(zi,Lλ) 通俗解释 :这就像是一个"过滤器"。如果梯度下降后的值 ziz^izi 比较小(绝对值小于 λL\frac{\lambda}{L}Lλ),就直接把它"抹零";如果比较大,就向原点方向收缩。通过这种方式,PGD 能够快速产生稀疏解
四、 稀疏表示与字典学习
- 目的 :如果数据本身不是稀疏的(稠密矩阵),我们可以通过学习一个"字典" BBB,将原样本 xxx 表示为稀疏向量 α\alphaα
- 数学形式:minB,αi∑i=1m∥xi−Bαi∥22+λ∑i=1m∥αi∥1\min_{B, \alpha_i} \sum_{i=1}^m \|x_i - B\alpha_i\|2^2 + \lambda \sum{i=1}^m \|\alpha_i\|_1B,αimini=1∑m∥xi−Bαi∥22+λi=1∑m∥αi∥1
- 第一项:重构误差,要求学到的稀疏表示还原回去后要像原数据
- 第二项 :L1 范数,要求表示向量 α\alphaα 必须是稀疏的
- 求解方法:KSVD 算法,通过变量交替优化(固定字典更新系数,固定系数更新字典)来解决
五、 压缩感知与矩阵补全
1. 压缩感知 (Compressed Sensing)
利用信号的稀疏性,用远低于奈奎斯特采样定理要求的频率进行采样,并精确重构原信号
- 限定等距性 (RIP) :这是矩阵 AAA 必须满足的性质,确保在低维观测时能保留信号距离
- 等效转换 :将 NP 难的 L0L_0L0 范数最小化问题转化为凸优化的 L1L_1L1 范数最小化问题(LASSO 形式)来求解
2. 矩阵补全 (Matrix Completion)
通过部分观测值推测矩阵中的未知值(如推荐系统中的评分矩阵)
- 核范数 (Nuclear Norm) :矩阵秩 rank(X)rank(X)rank(X) 是非凸的、难以求解的 。核范数(所有奇异值之和)是秩的最佳凸近似,因此通过最小化核范数来近似求解