交叉熵、KL 散度 | 定义与相互关系

1 KL 散度

对于离散概率分布 \(P\) 和 \(Q\) ,KL 散度定义为:

\\\text{KL}(P \\\| Q) = -E_{x\\sim P}\\log P(x)-\\log Q(x) \\\\ =\\sum_{\\mathbf{x}} P(\\mathbf{x}) \\log \\frac{P(\\mathbf{x})}{Q(\\mathbf{x})} \\

对于连续概率分布,定义为:

\\\text{KL}(P \\\| Q) = \\int p(\\mathbf{x}) \\log \\frac{p(\\mathbf{x})}{q(\\mathbf{x})} d\\mathbf{x} \\

其中,\(p(\mathbf{x})\) 是 \(P\) 的概率密度函数,\(q(\mathbf{x})\) 是 \(Q\) 的概率密度函数。

KL 散度的性质:

  1. 非负性 :KL 散度总是非负的,\(\text{KL}(P \| Q) \geq 0\)。
  2. 不对称性 :KL 散度不是对称的,即 \(\text{KL}(P \| Q) \neq \text{KL}(Q \| P)\)。
  3. 零点 :当 \(P\) 和 \(Q\) 完全相同时,\(\text{KL}(P \| Q) = 0\)。
  4. 不满足三角不等式:KL 散度不满足传统意义上的三角不等式。

2 交叉熵

交叉熵(cross-entropy)和 KL 散度联系密切,也可以用来衡量两个分布的差异。

对于离散概率分布 \(P\) 和 \(Q\) ,交叉熵定义为:

\H(P,Q)=-E_{x\\sim P}\\log Q(x)=-\\sum P(x_i)\\log Q(x_i) \\

对于连续概率分布,定义为:

\H(P,Q) = -\\int p(\\mathbf{x}) \\log q(\\mathbf{x}) d\\mathbf{x} \\

可以看出,\(H(P,Q)=H(P)+D_\text{KL}(P \| Q)\) ,其中 \(H(P)\) 是 P 的熵。

性质:

  1. 非负性;
  2. 和 KL 散度相同,交叉熵也不具备对称性,即 \(H(P,Q)\neq H(Q,P)\);
  3. 对同一个分布求交叉熵,等于对其求熵。