【高级机器学习】6. 稀疏编码与正则化

一、为什么需要"稀疏"(Why sparse?)

许多信号在某个变换域 中呈现稀疏性:只有极少数系数不为零(或显著非零),其余系数接近于零。

典型动机与示例:

  • 三个正弦波在时域 看似复杂、叠加起伏;在频域只在对应频率处出现少量冲击------系数极少,表示稀疏。
  • 对于不同信号 y 1 , y 2 y_1, y_2 y1,y2,在时域呈复杂波形,但在恰当变换(如傅里叶、小波等)后,其频域/系数域多为脉冲式稀疏
  • 过完备基(如"时间+频率"联合)下,信号通常能用更少的原子(基向量)组合起来。
  • 自然数据的例子:乐器音谱、语音声谱图;自然图像在曲波/小波等域中也呈极强的稀疏性(大量系数接近 0,少量系数集中在边缘/纹理等结构处)。

二、字典学习的统一形式(Dictionary Learning)

设数据矩阵 X ∈ R d × n X\in\mathbb{R}^{d\times n} X∈Rd×n。字典学习 试图用字典 D ∈ R d × k D\in\mathbb{R}^{d\times k} D∈Rd×k 与系数/表示 R ∈ R k × n R\in\mathbb{R}^{k\times n} R∈Rk×n 近似分解:
min ⁡ D ∈ D , , R ∈ R ∣ X − D R ∣ F 2 . \min_{D\in\mathcal{D},,R\in\mathcal{R}}\ |X-DR|_F^2 . D∈D,,R∈Rmin ∣X−DR∣F2.
D , R \mathcal{D},\mathcal{R} D,R 表示对字典与系数的可行域/约束(稍后分别给出不同任务下的具体约束)。


三、稀疏编码(Sparse Coding)模型

过完备 字典( k > d k>d k>d)下,希望每个样本的系数向量尽可能稀疏
min ⁡ D ∈ D , , R ∈ R ∣ X − D R ∣ F 2 , s.t. 每列 r i 稀疏。 \min_{D\in\mathcal{D},,R\in\mathcal{R}}\ |X-DR|_F^2 ,\quad \text{s.t. 每列 } r_i\text{ 稀疏。} D∈D,,R∈Rmin ∣X−DR∣F2,s.t. 每列 ri 稀疏。

直观图示: D D D 列数多(过完备), R R R 的大部分条目为 0,仅少数非零块支撑重构。


四、 ℓ p \ell_p ℓp 范数与稀疏

向量 α ∈ R k \alpha\in\mathbb{R}^k α∈Rk 的 ℓ p \ell_p ℓp 范数:
∣ ∣ α ∣ ∣ p = ( ∑ j = 1 k ∣ α j ∣ p ) 1 / p . ||\alpha||p=\Big(\sum{j=1}^k|\alpha_j|^p\Big)^{1/p}. ∣∣α∣∣p=(j=1∑k∣αj∣p)1/p.

五、K-means 作为字典学习的特例

K-means 可写成:
min ⁡ D ∈ D , , R ∈ R ∣ X − D R ∣ F 2 , \min_{D\in\mathcal{D},,R\in\mathcal{R}}\ |X-DR|_F^2 , D∈D,,R∈Rmin ∣X−DR∣F2,

其中约束为: R R R 的每一列是one-hot 向量( ∣ R i ∣ 0 = 1 |R_i|_0=1 ∣Ri∣0=1 且 ∣ R i ∣ 1 = 1 |R_i|_1=1 ∣Ri∣1=1)。

这对应"每个样本只选一个簇中心"------极端稀疏(1-sparse)。


六、K-SVD

在一般稀疏编码中,要求每列 R i R_i Ri 的非零个数受限:
min ⁡ D , R ∣ X − D R ∣ F 2 , ∣ R i ∣ 0 ≤ k ′ , k ′ ≪ k . \min_{D,R}\ |X-DR|_F^2,\qquad |R_i|_0\le k',\ \ k'\ll k . D,Rmin ∣X−DR∣F2,∣Ri∣0≤k′, k′≪k.
K-SVD 交替更新:先用稀疏编码(如 OMP)求 R R R,再用 SVD 逐列更新字典原子。


七、稀疏编码的实际应用

  • 图像压缩:在相同比特预算(如 820 bytes/图)下,K-SVD 等稀疏表示可较 PCA/JPEG/JPEG2000 获得更低失真(示例对比图)。
  • 图像修补(Inpainting):在 70%/90% 丢样的情况下,K-SVD/DCT/Haar 进行稀疏重建,RMSE 对比显示 K-SVD 具有竞争力。
  • 文本去除修补:对覆盖文字的区域以稀疏先验重建背景纹理,达到去字效果。

八、如何度量并诱导稀疏:目标函数

在字典学习统一目标上加入稀疏正则
min ⁡ D , R ∣ X − D R ∣ F 2 + λ , ψ ( R ) , \min_{D,R}\ |X-DR|_F^2+\lambda,\psi(R), D,Rmin ∣X−DR∣F2+λ,ψ(R),

其中 ψ ( R ) \psi(R) ψ(R) 用于控制每列表示的稀疏性。问题: ψ ( ⋅ ) \psi(\cdot) ψ(⋅) 如何设计?


九、 ℓ 0 \ell_0 ℓ0 稀疏度与其难点

用 ℓ 0 \ell_0 ℓ0 直接计数是理想但难优化:非凸、NP-hard。

二维几何直观:如果约束 ∣ α ∣ 1 ≤ μ |\alpha|_1\le \mu ∣α∣1≤μ(左图为菱形)与 ℓ 2 \ell_2 ℓ2 球(右图为圆),与同心误差球相切的点在 ℓ 1 \ell_1 ℓ1 情形更易落在坐标轴上(促稀疏)。


十、 ℓ 1 \ell_1 ℓ1 替代与常见形式(LASSO 型)

两种标准化写法:
min ⁡ α ∣ α ∣ 1 s.t. ∣ X − D α ∣ ∗ F 2 ≤ ϵ , \min_\alpha\ |\alpha|_1\ \ \text{s.t.}\ \ |X-D\alpha|*F^2\le \epsilon , αmin ∣α∣1 s.t. ∣X−Dα∣∗F2≤ϵ,


min ⁡ ∗ α ∣ X − D α ∣ F 2 + λ ∣ α ∣ 1 . \min*\alpha\ |X-D\alpha|_F^2+\lambda|\alpha|_1 . min∗α ∣X−Dα∣F2+λ∣α∣1.
ℓ 1 \ell_1 ℓ1 是 的、计算上可解,且在很多条件下能近似恢复 ℓ 0 \ell_0 ℓ0 稀疏解。

L1不是处处可导的,但是可以减少维度。


十一、基于 ℓ 0 \ell_0 ℓ0 的贪心算法

目标的两种 ℓ 0 \ell_0 ℓ0 约束/约束化写法:
min ⁡ α ∣ X − D α ∣ F 2 s.t. ∀ i , ∣ α ∣ ∗ 0 < L , \min_\alpha |X-D\alpha|_F^2\quad \text{s.t.}\ \forall i,\ |\alpha|*0<L, αmin∣X−Dα∣F2s.t. ∀i, ∣α∣∗0<L,


min ⁡ ∗ α ∣ α ∣ 0 s.t. ∣ X − D α ∣ F 2 ≤ ϵ . \min*\alpha |\alpha|_0\quad \text{s.t.}\ |X-D\alpha|_F^2\le \epsilon . min∗α∣α∣0s.t. ∣X−Dα∣F2≤ϵ.

常见贪心方法:OMP(Orthogonal Matching Pursuit)、SP、CoSaMP、IHT 等。


十二、 ℓ 1 \ell_1 ℓ1 方法与贝叶斯方法

ℓ 1 \ell_1 ℓ1 系列同样对应两种形式(约束式/正则式),见上文。
贝叶斯稀疏

  • RVM(Relevance Vector Machine)
  • BCS (Bayesian Compressed Sensing)
    通过稀疏先验(如稀疏促性的层级高斯/拉普拉斯等)自动实现模型选择与稀疏化。

十三、正则化与算法稳定性(Regularisation & Stability)

No-Free-Lunch 提示 :朴素稀疏算法可能不稳定

如果训练数据的轻微扰动导致算法输出的微小变化,那么学习算法就是稳定的,并且这些变化随着数据集越来越大而消失

算法稳定性 (uniform stability)定义:给训练集
S = ( X 1 , Y 1 ) , ... , ( X n , Y n ) , S i = ( X 1 , Y 1 ) , ... , ( X i ′ , Y i ′ ) , ... , ( X n , Y n ) , S={(X_1,Y_1),\ldots,(X_n,Y_n)},\quad S^i={(X_1,Y_1),\ldots,(X'_i,Y'_i),\ldots,(X_n,Y_n)}, S=(X1,Y1),...,(Xn,Yn),Si=(X1,Y1),...,(Xi′,Yi′),...,(Xn,Yn),

二者仅在第 i i i 个样本上不同。若对任意样本 ( X , Y ) (X,Y) (X,Y) 都有
∣ ℓ ( X , Y , h S ) − ℓ ( X , Y , h ∗ S i ) ∣ ≤ ϵ ( n ) , |\ell(X,Y,h_S)-\ell(X,Y,h*{S^i})|\le \epsilon(n), ∣ℓ(X,Y,hS)−ℓ(X,Y,h∗Si)∣≤ϵ(n),

且 ϵ ( n ) → 0 \epsilon(n)\to 0 ϵ(n)→0 随 n → ∞ n\to\infty n→∞,则学习算法稳定。


13.1 泛化误差的分解(关键不等式链)

对经验风险最小化器 h S h_S hS 与最优 h ∗ h^* h∗,有
R ( h S ) − min ⁡ h ∈ H R ( h ) = R ( h S ) − R ( h ∗ ) ≤ 2 sup ⁡ h ∈ H , ∣ R ( h ) − R S ( h ) ∣ . R(h_S)-\min_{h\in H}R(h) =R(h_S)-R(h^*) \le 2\sup_{h\in H},|R(h)-R_S(h)| . R(hS)−h∈HminR(h)=R(hS)−R(h∗)≤2h∈Hsup,∣R(h)−RS(h)∣.

这表明:泛化误差由"真实风险与经验风险的最大偏差"控制。


13.2 期望形式与稳定性

考虑期望差:
E [ R ( h S ) − R S ( h S ) ] ≤ ϵ ′ ( n ) , \mathbb{E}[R(h_S)-R_S(h_S)] \le \epsilon'(n), E[R(hS)−RS(hS)]≤ϵ′(n),

当算法对单个样本扰动"不敏感"时,上式右端随数据量增大趋小,意味着稳定 ⇒ \Rightarrow ⇒ 好的期望泛化


13.3 ℓ 2 \ell_2 ℓ2 正则化与稳定性

L2范数正则化将使学习算法稳定,如果所使用的代理损失函数是凸的

若使用凸替代损失 ℓ \ell ℓ 且对 h h h 是 L L L-Lipschitz,输入有界 ∣ X ∣ 2 ≤ B |X|2\le B ∣X∣2≤B。考虑
h S = arg ⁡ min ⁡ h ∈ H 1 n ∑ i = 1 n ℓ ( X i , Y i , h ) + λ ∣ h ∣ 2 2 . h_S=\arg\min
{h\in H}\ \frac1n\sum_{i=1}^n\ell(X_i,Y_i,h)+\lambda|h|_2^2 . hS=argh∈Hmin n1i=1∑nℓ(Xi,Yi,h)+λ∣h∣22.

则可得稳定性界
∣ ℓ ( X , Y , h S ) − ℓ ( X , Y , h S i ) ∣ ≤ 2 L 2 B 2 λ n . |\ell(X,Y,h_S)-\ell(X,Y,h_{S^i})|\ \le\ \frac{2L^2B^2}{\lambda n}. ∣ℓ(X,Y,hS)−ℓ(X,Y,hSi)∣ ≤ λn2L2B2.


13.4 证明要点(可选)

  1. L-Lipschitz

    若对任意 h , h ′ h,h' h,h′ 有
    ∣ ℓ ( X , Y , h ) − ℓ ( X , Y , h ′ ) ∣ ≤ L , ∣ h ( X ) − h ′ ( X ) ∣ , |\ell(X,Y,h)-\ell(X,Y,h')|\le L,|h(X)-h'(X)|, ∣ℓ(X,Y,h)−ℓ(X,Y,h′)∣≤L,∣h(X)−h′(X)∣,

    则 ℓ \ell ℓ 关于 h h h 为 L-Lipschitz。

  2. μ \mu μ-强凸(Strongly Convex)


    f ( y ) ≥ f ( x ) + ⟨ ∇ f ( x ) , y − x ⟩ + μ 2 ∣ x − y ∣ 2 , f(y)\ge f(x)+\langle\nabla f(x),y-x\rangle+\frac\mu2|x-y|^2, f(y)≥f(x)+⟨∇f(x),y−x⟩+2μ∣x−y∣2,

    等价于 μ I ⪯ ∇ 2 f ( x ) \mu I\preceq \nabla^2 f(x) μI⪯∇2f(x)。

  3. 两步关键不等式链(只给结论与核心步骤):

    由目标的强凸性与最优性,得到
    λ ∣ h S i − h S ∣ 2 ≤ R S i , λ ( h S ) − R S , λ ( h S ) + R S , λ ( h S i ) − R S i , λ ( h S i ) , \lambda|h_{S^i}-h_S|^2\ \le\ R_{S^i,\lambda}(h_S)-R_{S,\lambda}(h_S) +R_{S,\lambda}(h_{S^i})-R_{S^i,\lambda}(h_{S^i}), λ∣hSi−hS∣2 ≤ RSi,λ(hS)−RS,λ(hS)+RS,λ(hSi)−RSi,λ(hSi),

    进一步界为
    ∣ h S i − h S ∣ ≤ 2 L B λ n . |h_{S^i}-h_S|\ \le\ \frac{2LB}{\lambda n}. ∣hSi−hS∣ ≤ λn2LB.

    然后由 Lipschitz 条件推出
    ∣ ℓ ( X , Y , h S ) − ℓ ( X , Y , h S i ) ∣ ≤ L , ∣ h S − h S i ∣ , ∣ X ∣ ≤ 2 L 2 B 2 λ n . |\ell(X,Y,h_S)-\ell(X,Y,h_{S^i})| \le L,|h_S-h_{S^i}|,|X| \le \frac{2L^2B^2}{\lambda n}. ∣ℓ(X,Y,hS)−ℓ(X,Y,hSi)∣≤L,∣hS−hSi∣,∣X∣≤λn2L2B2.

    其中一步使用 Cauchy-Schwarz: ⟨ a , b ⟩ ≤ ∣ a ∣ , ∣ b ∣ \langle a,b\rangle\le|a|,|b| ⟨a,b⟩≤∣a∣,∣b∣。


结语式小结(按内容顺序回顾)

  1. 稀疏性的动机与大量实证示例 →
  2. 字典学习统一目标 min ⁡ ∣ X − D R ∣ F 2 \min|X-DR|_F^2 min∣X−DR∣F2 →
  3. 稀疏编码(过完备 + 稀疏系数) →
  4. ℓ p \ell_p ℓp、 ℓ 0 \ell_0 ℓ0 与 ℓ 1 \ell_1 ℓ1 的稀疏诱导 →
  5. K-means = one-hot 稀疏、K-SVD 的字典更新 →
  6. 压缩/修补/去字等应用 →
  7. 稀疏正则统一目标 ∣ X − D R ∣ F 2 + λ ψ ( R ) |X-DR|_F^2+\lambda\psi(R) ∣X−DR∣F2+λψ(R) →
  8. 贪心(OMP/SP/CoSaMP/IHT)、 ℓ 1 \ell_1 ℓ1 与贝叶斯方法 →
  9. 正则化---稳定性---泛化: ℓ 2 \ell_2 ℓ2 正则 + 凸替代损失给出 2 L 2 B 2 λ n \frac{2L^2B^2}{\lambda n} λn2L2B2 的稳定性界。
相关推荐
骑蜗牛散步2 小时前
安装 NVIDIA Container Runtime(含离线安装)
人工智能
美团技术团队2 小时前
美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地
人工智能
程思扬2 小时前
开源 + 实时 + 无网络限制:Excalidraw 是流程图协作新选择
网络·人工智能·阿里云·ai·开源·流程图
聚合菌2 小时前
【数据启元计划】推荐有礼:最高领100元话费或热门视频会员年卡!
人工智能
松岛雾奈.2302 小时前
机器学习--KNN算法中的距离、范数、正则化
人工智能·算法·机器学习
程途拾光1582 小时前
用流程图优化工作流:快速识别冗余环节,提升效率
大数据·论文阅读·人工智能·流程图·论文笔记
Lab4AI大模型实验室2 小时前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·github·deepseek-ocr
Brduino脑机接口技术答疑2 小时前
支持向量机(SVM)在脑电情绪识别中的学术解析与研究进展
人工智能·算法·机器学习·支持向量机·数据分析
北京耐用通信2 小时前
从‘卡壳’到‘丝滑’:耐达讯自动化PROFIBUS光纤模块如何让RFID读写器实现‘零延迟’物流追踪?”
网络·人工智能·科技·物联网·网络协议·自动化