信息论基础第三章阅读笔记

在信息论中，与大数定律类似的是渐进均分性(AEP)，它是弱大数定律的直接结果。

大数定理针对独立同分布(i.i.d.)随机变量

..................

因此，当n很大时，一个观察序列出现的概率 p ( X 1 , X 2 , . . . , X n ) p(X_1,X_2,...,X_n) p(X1,X2,...,Xn)近似等于 2 − n H 2^{-nH} 2−nH

这个表达式涉及到信息论中的一些概念，让我们一步步来解释：

p ( X 1 , X 2 , . . . , X n ) p(X_1, X_2, ..., X_n) p(X1,X2,...,Xn) 表示一个包含n个观察值（或事件）的序列出现的概率。这个序列可以是任何类型的数据，例如二进制序列、字母序列、符号序列等等。

H H H 是香农熵（Shannon entropy），它是信息论中的一个重要概念，用来衡量一个随机变量的不确定性。对于一个离散随机变量X，它的香农熵 H ( X ) H(X) H(X)定义为
H ( X ) = − ∑ x p ( x ) log ⁡ 2 ( p ( x ) ) H(X) = -\sum_{x} p(x) \log_2(p(x)) H(X)=−x∑p(x)log2(p(x))
这里， p ( x ) p(x) p(x) 是随机变量X取值为x的概率，求和是对所有可能的x值进行的。

2 − n H 2^{-nH} 2−nH 是一个与序列长度n和其不确定性有关的数学表达式。这个表达式可以被解释为：当你有一个长度为n的序列，其各个观察值的分布符合香农熵为H的分布时，这个序列出现的概率约等于 2 − n H 2^{-nH} 2−nH。

所以，上述表达式的意思是，当n很大时，一个观察序列出现的概率与序列的不确定性（由香农熵H衡量）呈指数关系。当不确定性较低（H较小）时，概率趋于1，表示序列出现的可能性很高；而当不确定性较高（H较大）时，概率趋于0，表示序列出现的可能性很低。这反映了信息论中的一个重要原理，即不确定性越高，信息的压缩（即用更短的编码表示序列）越困难，因此序列出现的概率越低。反之亦然，不确定性越低，信息的压缩越容易，序列出现的概率越高。这也与信息论中的信息理论和编码理论密切相关。
2 − n H 2^{-nH} 2−nH的推导过程：

我们有一个随机变量X，它可以取一组可能的值 x 1 , x 2 , ... , x k x_1, x_2, \ldots, x_k x1,x2,...,xk，每个值发生的概率分别是 p ( x 1 ) , p ( x 2 ) , ... , p ( x k ) p(x_1), p(x_2), \ldots, p(x_k) p(x1),p(x2),...,p(xk)。

香农熵（Shannon entropy）是一个衡量随机变量不确定性的概念，定义为：
H ( X ) = − ∑ i = 1 k p ( x i ) log ⁡ 2 ( p ( x i ) ) H(X) = -\sum_{i=1}^{k} p(x_i) \log_2(p(x_i)) H(X)=−i=1∑kp(xi)log2(p(xi))

考虑一个独立同分布的观察值序列 ( X 1 , X 2 , ... , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,...,Xn)，每个 X i X_i Xi都是来自随机变量X的独立样本。

这个序列出现的概率可以表示为乘积：
p ( X 1 , X 2 , ... , X n ) = p ( X 1 ) ⋅ p ( X 2 ) ⋅ ... ⋅ p ( X n ) p(X_1, X_2, \ldots, X_n) = p(X_1) \cdot p(X_2) \cdot \ldots \cdot p(X_n) p(X1,X2,...,Xn)=p(X1)⋅p(X2)⋅...⋅p(Xn)

由于每个 X i X_i Xi都是来自相同的随机变量X，所以它们的概率都相同，即 p ( X 1 ) = p ( X 2 ) = ... = p ( X n ) = p ( X ) p(X_1) = p(X_2) = \ldots = p(X_n) = p(X) p(X1)=p(X2)=...=p(Xn)=p(X)。

将这个概率代入序列概率的表达式，得到：
p ( X 1 , X 2 , ... , X n ) = p ( X ) n p(X_1, X_2, \ldots, X_n) = p(X)^n p(X1,X2,...,Xn)=p(X)n

现在，我们想要将这个概率与香农熵联系起来。当n很大时，根据大数定律，我们可以使用香农熵来近似表示序列出现的概率：
p ( X 1 , X 2 , ... , X n ) ≈ 2 − n H ( X ) p(X_1, X_2, \ldots, X_n) \approx 2^{-nH(X)} p(X1,X2,...,Xn)≈2−nH(X)
这里， H ( X ) H(X) H(X)是随机变量X的香农熵。

所以，当n很大时，一个观察序列出现的概率 p ( X 1 , X 2 , ... , X n ) p(X_1, X_2, \ldots, X_n) p(X1,X2,...,Xn)近似等于 2 − n H ( X ) 2^{-nH(X)} 2−nH(X)。这表示序列出现的概率与随机变量X的香农熵H(X)之间的关系。

这促使我们将全体序列组成的集合划分成两个子集，其一是典型集，其中样本熵近似于真实熵；其二是非典型集，包含其余的序列。我们将主要关注典型集，这是因为任何基于典型序列的性质都是以高概率成立的，并且决定着大样本的平均行为。

这段文字描述了在信息论和概率论中常用的一个概念，即典型集 和非典型集，以及它们在研究随机序列时的重要性。让我来解释这些概念以及它们的含义：

典型集（Typical Set）：典型集是一个包含那些在大样本中以高概率出现的序列的集合。这意味着，如果你有一个随机生成的大样本，典型集中的序列将在这个样本中出现的概率非常高，接近于1。典型集中的序列具有与真实概率分布相一致的特性，因此它们的统计行为通常会接近于理论预期。

非典型集（Non-Typical Set）：非典型集包含了那些在大样本中以极低概率出现的序列。这些序列在随机样本中的出现几乎可以忽略不计。非典型集中的序列在统计意义上并不重要，因为它们的出现概率非常低，不会对大样本的平均行为产生显著影响。

重点关注典型集：文中提到，研究者通常更关注典型集，这是因为典型集中的序列具有高概率出现的特性，它们决定了大样本的平均行为。也就是说，如果你想了解大样本的统计性质，那么你主要关心的是那些在大样本中以高概率出现的典型序列。典型序列在大样本中的频率分布会逼近真实的概率分布，因此它们在统计分析和信息传输等领域中具有重要的应用价值。

总的来说，典型集和非典型集的概念有助于研究者理解随机序列的统计性质，特别是在大样本情况下。典型集中的序列可以被视为代表真实分布的样本，因此它们对于分析和预测大规模数据的行为非常有用。

3.1渐进均分性定理

定理3.3.1(AEP)若

信息论基础第三章阅读笔记

3.1渐进均分性定理

3.2 AEP的推论:数据压缩

3.3高概率集与典型集