深度学习篇---深度学习中的范数

文章目录

前言
一、向量范数
二、矩阵范数
- [1. Frobenius范数（矩阵L2范数）](#1. Frobenius范数（矩阵L2范数）)
- [2. 核范数（迹范数）](#2. 核范数（迹范数）)
- [3. 谱范数（最大奇异值范数）](#3. 谱范数（最大奇异值范数）)
三、范数在深度学习中的核心应用
- [1. 正则化（防止过拟合）](#1. 正则化（防止过拟合）)
- - 1.1L1正则化
  - 1.2L2正则化
- [2. 损失函数设计](#2. 损失函数设计)
- - 2.1L1损失
  - 2.2L2损失
- [3. 权重约束与优化](#3. 权重约束与优化)
- - 3.1梯度裁剪
  - 3.2谱归一化
- [4. 模型压缩与稀疏化](#4. 模型压缩与稀疏化)
- - 4.1L1正则化
  - 4.2结构化范数
- [5. 对抗防御](#5. 对抗防御)
- - 5.1L∞范数
四、不同范数的对比与选择
五、总结
- L1/L2范数
- 矩阵范数
范数选择原则

前言

本文介绍了一系列范数的定义、计算、使用。比如L1\L2\L∞\Frobenius范数（矩阵L2范数），用于正则化（防止过拟合）、损失函数。

一、向量范数

1.L0范数

1.1定义

向量中非零元素的数量

1.2计算式

1.3特点

非凸且计算困难（NP难问题）。
用于稀疏性约束 ，但实际常用L1范数替代。

1.4应用场景

1.4.1特征选择

特征选择（稀疏特征提取）。

1.4.2压缩感知

压缩感知（信号稀疏表示）。

2.L1范数（曼哈顿范数）

2.1定义

定义：向量元素绝对值之和。

2.2计算式

2.3特点

凸函数，可优化性强。
诱导稀疏性：优化过程中倾向于将部分参数置零。
几何解释：菱形等高线，在坐标轴处有"尖角"（稀疏性来源）。

2.4应用场景

2.4.1L1正则化

L1正则化（Lasso）：用于线性回归、神经网络权重稀疏化。

2.4.2鲁棒回归

鲁棒回归（如最小绝对偏差）。

3.L2范数（欧几里得范数）

3.1定义

定义：向量元素平方和的平方根。

3.2特点

严格凸，优化稳定。
抑制大参数值，防止过拟合。
几何解释：圆形等高线，各方向平滑下降。

3.3应用场景

L2正则化（岭回归、权重衰减）：防止模型过拟合。
损失函数（如均方误差损失）。

4.L∞范数（最大范数）

4.1定义

定义：向量元素绝对值的最大值。

4.2计算式

4.3特点

关注最大幅值的元素。
在对抗样本 生成中用于约束扰动大小。

4.4应用场景

对抗训练（限制扰动的最大幅度）。
梯度裁剪（防止梯度爆炸）。

5.Lp范数（广义范数）

5.1定义

定义：向量元素绝对值的p次方和的1/p次幂。

5.2计算式

5.3特点

p=1时为L1范数 ，p=2时为L2范数 ，p→∞时趋近L∞范数 。

不同p值对应不同的稀疏性和平滑性权衡。

二、矩阵范数

1. Frobenius范数（矩阵L2范数）

1.1定义

定义：矩阵元素平方和的平方根。

1.2特点

将矩阵视为向量后计算L2范数。
衡量矩阵的"总能量"。

1.3应用场景

权重矩阵的正则化 （如全连接层参数约束）。
矩阵分解（如PCA、SVD）。

2. 核范数（迹范数）

2.1定义

定义：矩阵奇异值之和。

2.2计算式

2.3特点

反映矩阵的低秩性质。
用于低秩矩阵恢复。

2.4应用场景

推荐系统（矩阵补全，如Netflix问题）。
鲁棒PCA（分离低秩矩阵与稀疏噪声）。

3. 谱范数（最大奇异值范数）

3.1定义

定义：矩阵的最大奇异值。

3.2计算式

3.3特点

衡量矩阵对向量的最大拉伸程度。
与Lipschitz连续性相关。

3.4应用场景

生成对抗网络（GAN）：约束判别器的Lipschitz常数。
谱归一化（稳定训练过程）。

三、范数在深度学习中的核心应用

1. 正则化（防止过拟合）

1.1L1正则化

L1正则化：通过稀疏化权重减少模型复杂度（如Lasso回归）。

1.2L2正则化

L2正则化：通过限制权重幅度防止过拟合（如岭回归、神经网络权重衰减）。

2. 损失函数设计

2.1L1损失

L1损失（MAE）：对异常值鲁棒，用于回归任务。

2.2L2损失

L2损失（MSE）：对异常值敏感，但优化更稳定。

3. 权重约束与优化

3.1梯度裁剪

梯度裁剪：使用L2或L∞范数限制梯度大小，防止梯度爆炸。

3.2谱归一化

谱归一化：通过谱范数约束网络层的Lipschitz常数（如WGAN）。

4. 模型压缩与稀疏化

4.1L1正则化

L1正则化：生成稀疏权重矩阵，便于模型压缩（如剪枝）。

4.2结构化范数

结构化范数（如Group Lasso）：约束特定参数组的稀疏性。

5. 对抗防御

5.1L∞范数

L∞约束：限制对抗扰动的大小（如对抗训练中的PGD攻击）。

四、不同范数的对比与选择

范数类型稀疏性计算复杂度典型应用

L0 最强 NP难理论分析，实际中少用

L1 强低 特征选择、稀疏模型

L2 无低 防止过拟合、稳定优化

L∞ 无低对抗训练、梯度裁剪

Frobenius 无中 矩阵正则化、分解

核范数低秩性高 推荐系统、低秩恢复

五、总结

L1/L2范数

L1/L2范数：基础正则化工具，分别诱导稀疏性和平滑性。

矩阵范数

矩阵范数：处理高维数据、低秩建模及稳定训练。

范数选择原则

根据任务需求（稀疏性、低秩性、鲁棒性）。
考虑计算效率和优化难度。
结合模型结构（如卷积层常用Frobenius范数，全连接层用L2）。

理解不同范数的特性及其几何意义 ，能够帮助设计更高效的模型架构、正则化策略和优化方法，从而提升深度学习模型的性能和泛化能力。