从信息熵到相对熵的发展过程

一、信息熵:不确定性的度量

1.1 直观理解

信息论之父克劳德·香农在1948年提出了信息熵 的概念,用来度量一个随机变量的不确定性

想象你要告诉我明天是否下雨。如果我说"明天要么下雨要么不下雨",这句话的信息量其实很小、几乎为零,因为你本来就知道这两种可能性。但如果我说"明天有87.3%的概率下雨,12.7%的概率不下雨",这句话的信息量就大得多------因为它揭示了一个更精确的分布。

信息熵的本质是:要消除一个随机变量的不确定性,平均需要多少信息量?

1.2 数学定义

对于一个离散随机变量 ,取值为 ,概率分布为 ​,信息熵定义为:

通常取以2为底的对数,单位是比特(bit)


二、实际示例:字符存储

2.1 场景设定

假设我们需要设计一个编码方案,将英文文本中的字符(A-Z,空格)存储到计算机中。我们知道不同字符出现的频率不同:

字符 概率
空格 0.18
E 0.11
T 0.09
A 0.08
O 0.08
... ...
Z 0.0007

2.2 固定长度编码

如果每个字符都用固定长度的二进制码表示,比如 ASCII 码用 8 位(1 字节),那么存储一个字符平均需要 8 比特

2.3 最优编码:信息熵的下界

香农告诉我们,最优编码的平均长度不能低于信息熵

计算这个字符分布的信息熵(以2为底):

假设有 27 个字符(26字母+空格),代入实际频率后,计算结果大约是 4.1 比特

这意味着:

  • 最优编码平均每个字符只需约 4.1 比特

  • 比 ASCII 码的 8 比特节省了近一半的存储空间

2.4 如何实现接近熵的编码?

哈夫曼编码就是典型例子:高频字符用短码(如空格用"0"),低频字符用长码(如 Z 用"111101")。

实际计算一下:

  • 空格(概率0.18):用 2 比特编码

  • E(0.11):用 3 比特

  • T(0.09):用 3 比特

  • ...

  • 平均长度 = 比特

非常接近理论下界 4.1 比特。

2.5 熵的本质意义

这个例子揭示了信息熵的核心含义:

使用最优编码时,每个符号的平均编码长度

或者说:

  • 高熵 = 不确定性大 = 信息量大 = 难以压缩. //各个字符等概率出现在文本中时,熵最高。

  • 低熵 = 不确定性小 = 信息量小 = 容易压缩

如果所有字符等概率出现(),则 比特,熵就高,编码效率更低。如果概率极不均匀(比如 90% 都是空格),熵就很低,可以极度压缩。


三、从熵到相对熵

3.1 一个实际问题

现在我们有了信息熵,知道用真实分布 进行最优编码时,平均长度是

但问题来了:++如果我不知道真实的分布 P,只能用错误的分布 来设计编码,会浪费多少空间?++

这正是相对熵要回答的问题。

3.2 从存储示例理解相对熵

沿用上面的字符存储例子:

  • 真实分布 :英文文本的实际字符频率( 空格 0.18,E 0.11,T 0.09... )

  • 假设分布 :我错误地假设所有字符等概率( 每个字符

错误编码的代价

如果用基于错误分布 的哈夫曼编码来存储真实分布 的文本,平均编码长度是多少?

根据信息论,用 设计的最优编码,其平均长度为:

这就是交叉熵

代入数值:

  • 真实编码( 基于真实分布 ): 比特

  • 错误编码( 基于等概率分布 ):

    比特

浪费的空间

错误编码比最优编码多用的比特数就是相对熵

代入数值:

比特

这意味着:因为错误地假设了等概率分布,平均每个字符多浪费了 0.65 比特的存储空间


四、相对熵的严格定义

4.1 定义

对于两个概率分布 ,相对熵(Kullback-Leibler 散度)定义为:

对于连续分布:

4.2 直观含义

相对熵衡量的是:

  • 来近似 时,所损失的信息量

  • 两个分布之间的"距离"(但不是真正的距离,因为不对称)

  • 从先验分布 更新到后验分布 时获得的信息增益

在我们的存储示例中:

{错误编码的平均长度} - {最优编码的平均长度}


五、相对熵的性质

5.1 非负性

等号成立当且仅当 (几乎处处相等)。

这意味着:任何近似都会带来损失,使用真实分布才能达到最优。

5.2 不对称性

例如:

  • :用 近似 时造成的信息损失

  • :用 近似 的损失

这两种损失通常不同。

5.3 凸性

相对熵关于 是联合凸的,这个性质在优化问题中非常重要。


六、相对熵的应用

6.1 机器学习:模型训练

在机器学习中,相对熵(通常称为交叉熵损失)是最常用的损失函数之一。

分类问题示例

  • 真实标签分布 :[1, 0, 0](第一类)

  • 模型预测分布 Q:[0.7, 0.2, 0.1]

交叉熵损失:

训练的目标就是最小化交叉熵,等价于最小化 ,因为 是常数。

6.2 自然语言处理:语言模型评估

语言模型预测下一个词的概率分布 ,与真实分布 (通常是一个独热向量)计算交叉熵。**困惑度(Perplexity)**定义为 ,是评估语言模型质量的常用指标。

延续存储示例的思路:一个好的语言模型应该能准确预测字符/词的概率分布,使得编码效率接近理论极限。

6.3 信息论:互信息

两个随机变量 的互信息定义为:

这衡量了 共享的信息量:

  • 如果 独立,​,则互信息为 0

  • 如果 高度相关,互信息很大

6.4 统计学:假设检验

在假设检验中,相对熵给出了最优检验的错误概率指数衰减率(Stein 引理) 。对于两个假设 ,区分它们时错误概率随样本量 指数衰减:

{错误概率}

6.5 量子信息:量子相对熵

推广到量子态时,量子相对熵 是量子信息理论的核心,用于:

  • 量化量子态的可区分性

  • 定义量子互信息(衡量量子关联)

  • 量子热力学中描述自由能


七、总结

7.1 从熵到相对熵的脉络

概念 含义 公式
信息熵 用真实分布编码的平均长度
交叉熵 用错误分布编码的平均长度
相对熵 两种编码的差(浪费的信息) ​​

7.2 核心洞察

通过字符存储的例子,我们可以看到:

  1. 信息熵是压缩的理论极限,告诉我们最少需要多少比特

  2. 相对熵是"为错误付出的代价",量化了近似带来的损失

  3. 机器学习中的交叉熵损失,本质就是让模型预测分布 尽可能接近真实分布

  4. 相对熵不仅是理论概念,更是连接编码理论、机器学习、统计推断和物理学的桥梁

正如香农所言:"信息是用来消除不确定性的东西。" 而相对熵,则告诉我们:当我们用错误的方式去消除不确定性时,会付出多少代价。

8. 相对熵笔记

相对熵 (Relative Entropy),也称为Kullback-Leibler 散度 (KL 散度),是信息论、统计学、机器学习以及量子信息中一个核心概念。它用来衡量两个概率分布(或更一般地,两个矩阵/算子)之间的"差异"或"距离"

虽然它并不是严格的数学距离(不满足对称性和三角不等式),但它是衡量一个分布如何"偏离"另一个分布的最基本工具。

以下从经典定义、量子定义、计算方法和揭示的事实几个方面进行介绍。


8.1. 经典相对熵

定义

对于定义在同一概率空间上的两个离散概率分布 ,相对熵定义为:

对于连续分布,求和变为积分:

通常约定:

  • (因为

  • 若存在 使得 ,则

直观理解
  • 衡量信息损失 :相对熵表示当用分布 来近似真实分布 时,所损失的信息量。

  • 编码代价 :在信息论中,它表示使用基于 的最优编码方案对来自 的样本进行编码时,相比于使用基于 的最优编码方案所多出的平均编码长度。

性质
  1. 非负性,等号成立当且仅当 (几乎处处成立)。

  2. 不对称性

  3. 凸性 :关于 是联合凸的。


8.2. 量子相对熵

当推广到量子态(密度矩阵)时,量子相对熵由 Umegaki 于 1962 年提出。

定义

对于两个密度矩阵(半正定、迹为 1),量子相对熵定义为:

如果 的支集(非零本征值对应的子空间)不包含在 的支集内,则定义为

与经典的关系

都是对角矩阵时,量子相对熵退化为经典 KL 散度:

重要性质
  • 非负性,等号成立当且仅当

  • 单调性(数据处理不等式) :对于任何完全正定保迹映射 ,有

    这意味着量子操作不能增加两个态之间的可区分性。

  • 联合凸性 关于 是联合凸的。


8.3. 计算方法

经典情形

直接按定义计算:

​​

其中常用自然对数或以 2 为底的对数(对应信息量的单位分别为 nats 或 bits)。

量子情形

一种实用的计算方法是:对角化

​ 为本征值, 为本征矢。则:

其中 本征基下的对角元。


8.4. 背后揭示的事实

① 可区分性的度量

相对熵量化了两个概率分布或量子态之间的"可区分性"。在假设检验中,它给出了最优检验的指数衰减率(Chernoff 界、Stein 引理等)。

② 信息论中的基础角色
  • 互信息,度量随机变量之间的相关性。

  • 交叉熵:机器学习中常用的损失函数,本质上是相对熵与熵之和。

③ 量子物理中的自由能

在量子统计力学中,对于哈密顿量 和逆温度 的吉布斯态 ,有:

这揭示了相对熵与自由能、熵、内能之间的深刻联系。

④ 量子互信息与纠缠

对于两体系统 ,量子互信息定义为:

它度量了 A 与 B 之间的所有关联(包括经典和量子)。对于纯态,,即两倍的纠缠熵。

⑤ 几何意义

相对熵在量子态空间上诱导出一个黎曼度量(Bures 度量或量子 Fisher 信息),是量子估计理论和量子几何的核心对象。


8.5. 总结

方面 经典相对熵 (KL 散度) 量子相对熵
定义 ​​
非负性
对称性
三角不等式
数据处理不等式
应用 机器学习、信息论、统计推断 量子信息、量子统计力学、量子热力学

相对熵不仅是信息论和量子信息的基本概念,更是一个连接统计、物理、几何的统一性框架。它告诉我们:如何量化差异、如何衡量信息损失、如何理解物理系统中的热力学代价。

相关推荐
闻缺陷则喜何志丹18 小时前
【计算几何】和差化积及积化和差
c++·数学·计算几何
Luhui Dev2 天前
如何画三角形的外接圆(附几何画板教程)
数学
彭道意2 天前
《数论探微:进阶版》(Arithmetic Tales: Advanced Edition)
数学·数论·number theory·译作
sxtyjty4 天前
AtCoder Beginner Contest 450 G题题解
数学·算法·期望
向往着的青绿色5 天前
完全平方数【Letcode279题解】
开发语言·c++·数学·算法·面试·性能优化·动态规划
Sakuraba Ema5 天前
从零理解 MoE(Mixture of Experts)混合专家:原理、数学、稀疏性、专家数量影响与手写 PyTorch 实现
人工智能·pytorch·python·深度学习·数学·llm·latex
Sunsets_Red7 天前
乘法逆元的 exgcd 求法
c++·学习·数学·算法·c#·密码学·信息学竞赛
闻缺陷则喜何志丹7 天前
【高等数学】四,不定积分
数学·不定积分·高等数学·分部积分法·第一类积分换元法·第二类积分换元法·有理函数的积分
shuiwangrenjia8 天前
MT2001 幸运的3
数学