深度学习周报（25.12.29~26.1.4)

摘要

本周首先学习了f-散度族的相关知识，了解了KL散度、JS散度与总变分距离的数学表示与性质，同时对上周学习的 Wasserstein 距离进行了回顾，并比较了 Wasserstein 距离与它们的优缺点；其次，对前面了解过的激活函数进行了总结，系统地了解了它们的公式与图像等。

Abstract

This week, I first studied the family of f-divergences, learning the mathematical expressions and properties of KL divergence, JS divergence, and total variation distance. I also reviewed the Wasserstein distance covered last week and compared the advantages and disadvantages of Wasserstein distance with those of the f-divergences. Secondly, I summarized the activation functions I had previously studied, systematically reviewing their formulas and graphical representations.

1 Wasserstein 距离（续）

本节主要基于上周对 Wasserstein 距离的学习，将它与其他散度进行对比。

1.1 Wasserstein 距离回顾

Wasserstein距离，也称为推土机距离，是一种度量两个概率分布之间距离的方法，通常代表最低的总运输成本。

给定两个分别定义在空间 X 和 Y 上的概率分布 P 和 Q，以及一个连续成本函数 c(x,y) 表示将单位质量从位置 x 移动到 y 的成本。对于这两个概率分布，p 阶 Wasserstein 距离的数学表示如下：

当 X 和 Y 是欧几里得空间时，代价函数是两点间距离的 p 次方，即，这也代表，p 是调节敏感性的连续参数能够决定对长距离运输的惩罚方法。

在实际应用中，p 值为 1 和 2 最为常见，具体选择取决于问题的需求。前者使用线性惩罚，运输成本与距离成正比，更适合存在噪声或异常值的场景，故广泛用于稳健统计和生成模型训练；二阶距离则在需要精确匹配的物理建模和几何分析中更有优势，因为它使用平方惩罚，更加强调长距离运输的成本，能够更好地区分具有相似主体但尾部不同的分布。

1.2 其他散度及对比

1.2.1 KL散度

KL散度（Kullback-Leibler Divergence）衡量的是使用一个分布 Q 来近似真实分布 P 时，所损失的信息量，若 P、Q 为离散分布，则它的表示为：

若为连续分布，则它的表示为：

同时对于以上表示均约定：

它的基本性质包括：

非负性，，只在 P 与 Q 几乎处处相等时取等号；

非对称性，，这也是KL散度最重要的特征之一，决定了它的两种形式有不同的应用场景；

不满足三角不等式（)，因此它不是真正的度量，只是一个散度。

p.s. 度量是一个严格定义的数学概念，用于衡量空间中任意两点之间的距离，散度则更为宽松，用于衡量两个对象（尤其是概率分布）差异。

KL散度的典型应用包括变分推断、期望最大化算法、信息论。

1.2.2 JS散度

JS散度（Jensen-Shannon Divergence）是KL散度的对称化和平滑版本，它的表示如下：

其中，它是 P 和 Q 的中间分布。

上式可展开为：

可以清晰地观察到，JS散度具有对称性。这是它相对于KL散度的最主要改进。

它的取值范围在 [0,log2] 之间，当且仅当 P 与 Q 几乎处处相等取下界 0，当 P 和 Q 的支撑集完全不相交时取上界 log2。

同时JS散度也不满足三角不等式，不是真正的度量，只是一个散度。

JS散度是原始 GAN 的判别器损失的理论基础，不过效果不好，因为当它取上界时梯度会消失，导致原始 GAN 训练崩溃。

1.2.3 总变分距离

总变分距离（Total Variation Distance）衡量的是两个概率分布在所有可能事件上概率差异的最大值。对于定义在同一个概率空间上的两个概率分布 P 和 Q ，它的数学表示如下：

其中 A 是任意一个事件，是所有可测事件的集合。

对于离散分布，上式等价于：

而对于连续分布，则等价于：

它不同于前两者仅是散度，而是一个真正的度量，满足所有距离公理。其取值范围为 [0,1] 。当两个分布完全相同时取下界 0 ，当两个分布支撑集完全不相交时取上界 1。

这是一个大家族，KL散度、JS散度都是其特例。

定义：Df(P∣∣Q)=∫q(x)f(p(x)q(x))dxDf(P∣∣Q)=∫q(x)f(q(x)p(x))dx，其中 ff 是凸函数。
共同特性 ：都是散度（非对称），且不依赖于样本空间的几何，只关心密度比。因此，与Wasserstein有根本的不同。

1.2.4 总结与对比

上面的KL散度、JS散度与总变分距离都是同一个"大家族"的特例，即 f-散度族（f-Divergences）。这是一类用于衡量两个概率分布之间差异的函数，它们都基于一个共同的数学形式。

离散情况下：

连续情况下：

其中要求为凸函数，且 .

并约定：1. ；2. 。

它们（主要是前面学习的三种）与 Wasserstein 距离的主要对比如下：

Wasserstein 距离与总变分距离都是度量，而KL散度与JS散度都只是散度；
Wasserstein 距离连续且考虑几何依赖，而另三者均不连续与不考虑；
KL散度对于支撑集不重叠的响应是无穷大的，JS散度则会饱和为常数导致梯度消失，总变分距离也有可能为常数，Wasserstein 距离则能够平滑变化；
Wasserstein 距离与总变分距离的计算复杂度都很高，前者需解最优传输，后者在高维下十分难求，而KL散度与JS散度的计算复杂度都较低；

5.Wasserstein 距离与KL散度均无界，JS散度与总变分距离都有界。

总而言之，Wasserstein 距离关心的是如何把一个分布变成另一个分布，而另三者都更关心l两个分布每一点是否相同。在机器学习中，若使用后面这类散度或度量作为损失函数，当生成分布与真实分布没有重叠或重叠可忽略时，梯度会消失或爆炸，导致训练失败，而这在训练初期十分常见；若使用 Wasserstein距离作为损失函数，即使分布没有重叠，它也能提供一个平滑的、有意义的梯度来指导生成器稳定改进。

2 激活函数总结

激活函数是神经网络中的非线性变换单元。它的核心作用包括引入非线性**，**使神经网络能够逼近任意复杂函数，从而超越线性模型；控制信息流动，即决定神经元是否激活及激活程度，形成网络的分层抽象能力；通过输出范围控制影响梯度传播和参数更新进而稳定训练过程。其种类大致可分为饱和型激活函数、非饱和型激活函数、自适应门控型激活函数等（下面总结的一般包括整个函数族）。