一、信息熵:不确定性的度量
1.1 直观理解
信息论之父克劳德·香农在1948年提出了信息熵 的概念,用来度量一个随机变量的不确定性。
想象你要告诉我明天是否下雨。如果我说"明天要么下雨要么不下雨",这句话的信息量其实很小、几乎为零,因为你本来就知道这两种可能性。但如果我说"明天有87.3%的概率下雨,12.7%的概率不下雨",这句话的信息量就大得多------因为它揭示了一个更精确的分布。
信息熵的本质是:要消除一个随机变量的不确定性,平均需要多少信息量?
1.2 数学定义
对于一个离散随机变量 ,取值为
,概率分布为
,信息熵定义为:
通常取以2为底的对数,单位是比特(bit)。
二、实际示例:字符存储
2.1 场景设定
假设我们需要设计一个编码方案,将英文文本中的字符(A-Z,空格)存储到计算机中。我们知道不同字符出现的频率不同:
| 字符 | 概率 |
|---|---|
| 空格 | 0.18 |
| E | 0.11 |
| T | 0.09 |
| A | 0.08 |
| O | 0.08 |
| ... | ... |
| Z | 0.0007 |
2.2 固定长度编码
如果每个字符都用固定长度的二进制码表示,比如 ASCII 码用 8 位(1 字节),那么存储一个字符平均需要 8 比特。
2.3 最优编码:信息熵的下界
香农告诉我们,最优编码的平均长度不能低于信息熵。
计算这个字符分布的信息熵(以2为底):
假设有 27 个字符(26字母+空格),代入实际频率后,计算结果大约是 4.1 比特。
这意味着:
-
最优编码平均每个字符只需约 4.1 比特
-
比 ASCII 码的 8 比特节省了近一半的存储空间
2.4 如何实现接近熵的编码?
哈夫曼编码就是典型例子:高频字符用短码(如空格用"0"),低频字符用长码(如 Z 用"111101")。
实际计算一下:
-
空格(概率0.18):用 2 比特编码
-
E(0.11):用 3 比特
-
T(0.09):用 3 比特
-
...
-
平均长度 =
比特
非常接近理论下界 4.1 比特。
2.5 熵的本质意义
这个例子揭示了信息熵的核心含义:
使用最优编码时,每个符号的平均编码长度
或者说:
-
高熵 = 不确定性大 = 信息量大 = 难以压缩. //各个字符等概率出现在文本中时,熵最高。
-
低熵 = 不确定性小 = 信息量小 = 容易压缩
如果所有字符等概率出现(),则
比特,熵就高,编码效率更低。如果概率极不均匀(比如 90% 都是空格),熵就很低,可以极度压缩。
三、从熵到相对熵
3.1 一个实际问题
现在我们有了信息熵,知道用真实分布 进行最优编码时,平均长度是
。
但问题来了:++如果我不知道真实的分布 P,只能用错误的分布
来设计编码,会浪费多少空间?++
这正是相对熵要回答的问题。
3.2 从存储示例理解相对熵
沿用上面的字符存储例子:
-
真实分布
:英文文本的实际字符频率( 空格 0.18,E 0.11,T 0.09... )
-
假设分布
:我错误地假设所有字符等概率( 每个字符
)
错误编码的代价
如果用基于错误分布 的哈夫曼编码来存储真实分布
的文本,平均编码长度是多少?
根据信息论,用 设计的最优编码,其平均长度为:
这就是交叉熵。
代入数值:
-
真实编码( 基于真实分布
):
比特
-
错误编码( 基于等概率分布
):
比特
浪费的空间
错误编码比最优编码多用的比特数就是相对熵:
代入数值:
比特
这意味着:因为错误地假设了等概率分布,平均每个字符多浪费了 0.65 比特的存储空间。
四、相对熵的严格定义
4.1 定义
对于两个概率分布 和
,相对熵(Kullback-Leibler 散度)定义为:
对于连续分布:
4.2 直观含义
相对熵衡量的是:
-
用
来近似
时,所损失的信息量
-
两个分布之间的"距离"(但不是真正的距离,因为不对称)
-
从先验分布
更新到后验分布
时获得的信息增益
在我们的存储示例中:
{错误编码的平均长度} - {最优编码的平均长度}
五、相对熵的性质
5.1 非负性
等号成立当且仅当 (几乎处处相等)。
这意味着:任何近似都会带来损失,使用真实分布才能达到最优。
5.2 不对称性
例如:
-
:用
近似
时造成的信息损失
-
:用
近似
的损失
这两种损失通常不同。
5.3 凸性
相对熵关于 是联合凸的,这个性质在优化问题中非常重要。
六、相对熵的应用
6.1 机器学习:模型训练
在机器学习中,相对熵(通常称为交叉熵损失)是最常用的损失函数之一。
分类问题示例:
-
真实标签分布
:[1, 0, 0](第一类)
-
模型预测分布
Q:[0.7, 0.2, 0.1]
交叉熵损失:
训练的目标就是最小化交叉熵,等价于最小化 ,因为
是常数。
6.2 自然语言处理:语言模型评估
语言模型预测下一个词的概率分布 ,与真实分布
(通常是一个独热向量)计算交叉熵。**困惑度(Perplexity)**定义为
,是评估语言模型质量的常用指标。
延续存储示例的思路:一个好的语言模型应该能准确预测字符/词的概率分布,使得编码效率接近理论极限。
6.3 信息论:互信息
两个随机变量 和
的互信息定义为:
这衡量了 和
共享的信息量:
-
如果
和
独立,
,则互信息为 0
-
如果
和
高度相关,互信息很大
6.4 统计学:假设检验
在假设检验中,相对熵给出了最优检验的错误概率指数衰减率(Stein 引理) 。对于两个假设 和
,区分它们时错误概率随样本量
指数衰减:
{错误概率}
6.5 量子信息:量子相对熵
推广到量子态时,量子相对熵 是量子信息理论的核心,用于:
-
量化量子态的可区分性
-
定义量子互信息(衡量量子关联)
-
量子热力学中描述自由能
七、总结
7.1 从熵到相对熵的脉络
| 概念 | 含义 | 公式 |
|---|---|---|
| 信息熵 |
用真实分布编码的平均长度 | |
| 交叉熵 |
用错误分布编码的平均长度 | |
| 相对熵 |
两种编码的差(浪费的信息) |
7.2 核心洞察
通过字符存储的例子,我们可以看到:
-
信息熵是压缩的理论极限,告诉我们最少需要多少比特
-
相对熵是"为错误付出的代价",量化了近似带来的损失
-
机器学习中的交叉熵损失,本质就是让模型预测分布
尽可能接近真实分布
-
相对熵不仅是理论概念,更是连接编码理论、机器学习、统计推断和物理学的桥梁
正如香农所言:"信息是用来消除不确定性的东西。" 而相对熵,则告诉我们:当我们用错误的方式去消除不确定性时,会付出多少代价。
8. 相对熵笔记
相对熵 (Relative Entropy),也称为Kullback-Leibler 散度 (KL 散度),是信息论、统计学、机器学习以及量子信息中一个核心概念。它用来衡量两个概率分布(或更一般地,两个矩阵/算子)之间的"差异"或"距离"。
虽然它并不是严格的数学距离(不满足对称性和三角不等式),但它是衡量一个分布如何"偏离"另一个分布的最基本工具。
以下从经典定义、量子定义、计算方法和揭示的事实几个方面进行介绍。
8.1. 经典相对熵
定义
对于定义在同一概率空间上的两个离散概率分布 和
,相对熵定义为:
对于连续分布,求和变为积分:
通常约定:
-
(因为
)
-
若存在
使得
但
,则
直观理解
-
衡量信息损失 :相对熵表示当用分布
来近似真实分布
时,所损失的信息量。
-
编码代价 :在信息论中,它表示使用基于
的最优编码方案对来自
的样本进行编码时,相比于使用基于
的最优编码方案所多出的平均编码长度。
性质
-
非负性 :
,等号成立当且仅当
(几乎处处成立)。
-
不对称性 :
。
-
凸性 :关于
是联合凸的。
8.2. 量子相对熵
当推广到量子态(密度矩阵)时,量子相对熵由 Umegaki 于 1962 年提出。
定义
对于两个密度矩阵(半正定、迹为 1) 和
,量子相对熵定义为:
如果 的支集(非零本征值对应的子空间)不包含在
的支集内,则定义为
。
与经典的关系
当 和
都是对角矩阵时,量子相对熵退化为经典 KL 散度:
重要性质
-
非负性 :
,等号成立当且仅当
。
-
单调性(数据处理不等式) :对于任何完全正定保迹映射
,有
这意味着量子操作不能增加两个态之间的可区分性。
-
联合凸性 :
关于
是联合凸的。
8.3. 计算方法
经典情形
直接按定义计算:
其中常用自然对数或以 2 为底的对数(对应信息量的单位分别为 nats 或 bits)。
量子情形
一种实用的计算方法是:对角化 。
设 ,
为本征值,
为本征矢。则:
其中 是
在
本征基下的对角元。
8.4. 背后揭示的事实
① 可区分性的度量
相对熵量化了两个概率分布或量子态之间的"可区分性"。在假设检验中,它给出了最优检验的指数衰减率(Chernoff 界、Stein 引理等)。
② 信息论中的基础角色
-
互信息 :
,度量随机变量之间的相关性。
-
交叉熵:机器学习中常用的损失函数,本质上是相对熵与熵之和。
③ 量子物理中的自由能
在量子统计力学中,对于哈密顿量 和逆温度
的吉布斯态
,有:
这揭示了相对熵与自由能、熵、内能之间的深刻联系。
④ 量子互信息与纠缠
对于两体系统 ,量子互信息定义为:
它度量了 A 与 B 之间的所有关联(包括经典和量子)。对于纯态,,即两倍的纠缠熵。
⑤ 几何意义
相对熵在量子态空间上诱导出一个黎曼度量(Bures 度量或量子 Fisher 信息),是量子估计理论和量子几何的核心对象。
8.5. 总结
| 方面 | 经典相对熵 (KL 散度) | 量子相对熵 |
|---|---|---|
| 定义 | ||
| 非负性 | ✅ | ✅ |
| 对称性 | ❌ | ❌ |
| 三角不等式 | ❌ | ❌ |
| 数据处理不等式 | ✅ | ✅ |
| 应用 | 机器学习、信息论、统计推断 | 量子信息、量子统计力学、量子热力学 |
相对熵不仅是信息论和量子信息的基本概念,更是一个连接统计、物理、几何的统一性框架。它告诉我们:如何量化差异、如何衡量信息损失、如何理解物理系统中的热力学代价。