从信息熵到相对熵的发展过程

一、信息熵：不确定性的度量

1.1 直观理解

信息论之父克劳德·香农在1948年提出了信息熵 的概念，用来度量一个随机变量的不确定性。

想象你要告诉我明天是否下雨。如果我说"明天要么下雨要么不下雨"，这句话的信息量其实很小、几乎为零，因为你本来就知道这两种可能性。但如果我说"明天有87.3%的概率下雨，12.7%的概率不下雨"，这句话的信息量就大得多------因为它揭示了一个更精确的分布。

信息熵的本质是：要消除一个随机变量的不确定性，平均需要多少信息量？

1.2 数学定义

对于一个离散随机变量，取值为，概率分布为，信息熵定义为：

通常取以2为底的对数，单位是比特（bit）。

二、实际示例：字符存储

2.1 场景设定

假设我们需要设计一个编码方案，将英文文本中的字符（A-Z，空格）存储到计算机中。我们知道不同字符出现的频率不同：

字符	概率
空格	0.18
E	0.11
T	0.09
A	0.08
O	0.08
...	...
Z	0.0007

2.2 固定长度编码

如果每个字符都用固定长度的二进制码表示，比如 ASCII 码用 8 位（1 字节），那么存储一个字符平均需要 8 比特。

2.3 最优编码：信息熵的下界

香农告诉我们，最优编码的平均长度不能低于信息熵。

计算这个字符分布的信息熵（以2为底）：

假设有 27 个字符（26字母+空格），代入实际频率后，计算结果大约是 4.1 比特。

这意味着：

最优编码平均每个字符只需约 4.1 比特
比 ASCII 码的 8 比特节省了近一半的存储空间

2.4 如何实现接近熵的编码？

哈夫曼编码就是典型例子：高频字符用短码（如空格用"0"），低频字符用长码（如 Z 用"111101"）。

实际计算一下：

空格（概率0.18）：用 2 比特编码
E（0.11）：用 3 比特
T（0.09）：用 3 比特
...
平均长度 = 比特

非常接近理论下界 4.1 比特。

2.5 熵的本质意义

这个例子揭示了信息熵的核心含义：

使用最优编码时，每个符号的平均编码长度

或者说：

高熵 = 不确定性大 = 信息量大 = 难以压缩. //各个字符等概率出现在文本中时，熵最高。
低熵 = 不确定性小 = 信息量小 = 容易压缩

如果所有字符等概率出现（），则比特，熵就高，编码效率更低。如果概率极不均匀（比如 90% 都是空格），熵就很低，可以极度压缩。

三、从熵到相对熵

3.1 一个实际问题

现在我们有了信息熵，知道用真实分布进行最优编码时，平均长度是。

但问题来了：++如果我不知道真实的分布 P，只能用错误的分布来设计编码，会浪费多少空间？++

这正是相对熵要回答的问题。

3.2 从存储示例理解相对熵

沿用上面的字符存储例子：

真实分布 ：英文文本的实际字符频率（空格 0.18，E 0.11，T 0.09... ）
假设分布 ：我错误地假设所有字符等概率（每个字符）

错误编码的代价

如果用基于错误分布的哈夫曼编码来存储真实分布的文本，平均编码长度是多少？

根据信息论，用设计的最优编码，其平均长度为：

这就是交叉熵。

代入数值：

真实编码（基于真实分布）：比特
错误编码（基于等概率分布）：

比特

浪费的空间

错误编码比最优编码多用的比特数就是相对熵：

代入数值：

比特

这意味着：因为错误地假设了等概率分布，平均每个字符多浪费了 0.65 比特的存储空间。

四、相对熵的严格定义

4.1 定义

对于两个概率分布和，相对熵（Kullback-Leibler 散度）定义为：

对于连续分布：

4.2 直观含义

相对熵衡量的是：

用来近似时，所损失的信息量
两个分布之间的"距离"（但不是真正的距离，因为不对称）
从先验分布更新到后验分布时获得的信息增益

在我们的存储示例中：

{错误编码的平均长度} - {最优编码的平均长度}

五、相对熵的性质

5.1 非负性

等号成立当且仅当（几乎处处相等）。

这意味着：任何近似都会带来损失，使用真实分布才能达到最优。

5.2 不对称性

例如：

：用近似时造成的信息损失
：用近似的损失

这两种损失通常不同。

5.3 凸性

相对熵关于是联合凸的，这个性质在优化问题中非常重要。

六、相对熵的应用

6.1 机器学习：模型训练

在机器学习中，相对熵（通常称为交叉熵损失）是最常用的损失函数之一。

分类问题示例：

真实标签分布： $1, 0, 0$ （第一类）
模型预测分布 Q： $0.7, 0.2, 0.1$

交叉熵损失：

训练的目标就是最小化交叉熵，等价于最小化，因为是常数。

6.2 自然语言处理：语言模型评估

语言模型预测下一个词的概率分布，与真实分布（通常是一个独热向量）计算交叉熵。**困惑度（Perplexity）**定义为，是评估语言模型质量的常用指标。

延续存储示例的思路：一个好的语言模型应该能准确预测字符/词的概率分布，使得编码效率接近理论极限。

6.3 信息论：互信息

两个随机变量和的互信息定义为：

这衡量了和共享的信息量：

如果和独立，，则互信息为 0
如果和高度相关，互信息很大

6.4 统计学：假设检验

在假设检验中，相对熵给出了最优检验的错误概率指数衰减率（Stein 引理） 。对于两个假设和，区分它们时错误概率随样本量指数衰减：

{错误概率}

6.5 量子信息：量子相对熵

推广到量子态时，量子相对熵是量子信息理论的核心，用于：

量化量子态的可区分性
定义量子互信息（衡量量子关联）
量子热力学中描述自由能

七、总结

7.1 从熵到相对熵的脉络

概念	含义	公式
信息熵	用真实分布编码的平均长度
交叉熵	用错误分布编码的平均长度
相对熵	两种编码的差（浪费的信息）

7.2 核心洞察

通过字符存储的例子，我们可以看到：

信息熵是压缩的理论极限，告诉我们最少需要多少比特
相对熵是"为错误付出的代价"，量化了近似带来的损失
机器学习中的交叉熵损失，本质就是让模型预测分布尽可能接近真实分布
相对熵不仅是理论概念，更是连接编码理论、机器学习、统计推断和物理学的桥梁

正如香农所言："信息是用来消除不确定性的东西。" 而相对熵，则告诉我们：当我们用错误的方式去消除不确定性时，会付出多少代价。

8. 相对熵笔记

相对熵 （Relative Entropy），也称为Kullback-Leibler 散度 （KL 散度），是信息论、统计学、机器学习以及量子信息中一个核心概念。它用来衡量两个概率分布（或更一般地，两个矩阵/算子）之间的"差异"或"距离"。

虽然它并不是严格的数学距离（不满足对称性和三角不等式），但它是衡量一个分布如何"偏离"另一个分布的最基本工具。

以下从经典定义、量子定义、计算方法和揭示的事实几个方面进行介绍。

8.1. 经典相对熵

定义

对于定义在同一概率空间上的两个离散概率分布和，相对熵定义为：

对于连续分布，求和变为积分：

通常约定：

（因为）
若存在使得但，则

直观理解

衡量信息损失 ：相对熵表示当用分布来近似真实分布时，所损失的信息量。
编码代价 ：在信息论中，它表示使用基于的最优编码方案对来自的样本进行编码时，相比于使用基于的最优编码方案所多出的平均编码长度。

性质

非负性 ：，等号成立当且仅当（几乎处处成立）。
不对称性 ：。
凸性：关于是联合凸的。

8.2. 量子相对熵

当推广到量子态（密度矩阵）时，量子相对熵由 Umegaki 于 1962 年提出。

定义

对于两个密度矩阵（半正定、迹为 1）和，量子相对熵定义为：

如果的支集（非零本征值对应的子空间）不包含在的支集内，则定义为。

与经典的关系

当和都是对角矩阵时，量子相对熵退化为经典 KL 散度：

重要性质

非负性 ：，等号成立当且仅当。
单调性（数据处理不等式） ：对于任何完全正定保迹映射，有

这意味着量子操作不能增加两个态之间的可区分性。
联合凸性 ：关于是联合凸的。

8.3. 计算方法

经典情形

直接按定义计算：

其中常用自然对数或以 2 为底的对数（对应信息量的单位分别为 nats 或 bits）。

量子情形

一种实用的计算方法是：对角化。

设，为本征值，为本征矢。则：

其中是在本征基下的对角元。

8.4. 背后揭示的事实

① 可区分性的度量

相对熵量化了两个概率分布或量子态之间的"可区分性"。在假设检验中，它给出了最优检验的指数衰减率（Chernoff 界、Stein 引理等）。

② 信息论中的基础角色

互信息 ：，度量随机变量之间的相关性。
交叉熵：机器学习中常用的损失函数，本质上是相对熵与熵之和。

③ 量子物理中的自由能

在量子统计力学中，对于哈密顿量和逆温度的吉布斯态，有：

这揭示了相对熵与自由能、熵、内能之间的深刻联系。

④ 量子互信息与纠缠

对于两体系统，量子互信息定义为：

它度量了 A 与 B 之间的所有关联（包括经典和量子）。对于纯态，，即两倍的纠缠熵。

⑤ 几何意义

相对熵在量子态空间上诱导出一个黎曼度量（Bures 度量或量子 Fisher 信息），是量子估计理论和量子几何的核心对象。

8.5. 总结

方面	经典相对熵 (KL 散度)	量子相对熵
定义
非负性	✅	✅
对称性	❌	❌
三角不等式	❌	❌
数据处理不等式	✅	✅
应用	机器学习、信息论、统计推断	量子信息、量子统计力学、量子热力学

相对熵不仅是信息论和量子信息的基本概念，更是一个连接统计、物理、几何的统一性框架。它告诉我们：如何量化差异、如何衡量信息损失、如何理解物理系统中的热力学代价。