在信息论中,与大数定律类似的是渐进均分性(AEP),它是弱大数定律的直接结果。
大数定理针对独立同分布(i.i.d.)随机变量
..................
因此,当n很大时,一个观察序列出现的概率 p ( X 1 , X 2 , . . . , X n ) p(X_1,X_2,...,X_n) p(X1,X2,...,Xn)近似等于 2 − n H 2^{-nH} 2−nH
这个表达式涉及到信息论中的一些概念,让我们一步步来解释:
- p ( X 1 , X 2 , . . . , X n ) p(X_1, X_2, ..., X_n) p(X1,X2,...,Xn) 表示一个包含n个观察值(或事件)的序列出现的概率。这个序列可以是任何类型的数据,例如二进制序列、字母序列、符号序列等等。
- H H H 是香农熵(Shannon entropy),它是信息论中的一个重要概念,用来衡量一个随机变量的不确定性。对于一个离散随机变量X,它的香农熵 H ( X ) H(X) H(X)定义为
H ( X ) = − ∑ x p ( x ) log 2 ( p ( x ) ) H(X) = -\sum_{x} p(x) \log_2(p(x)) H(X)=−x∑p(x)log2(p(x))
这里, p ( x ) p(x) p(x) 是随机变量X取值为x的概率,求和是对所有可能的x值进行的。- 2 − n H 2^{-nH} 2−nH 是一个与序列长度n和其不确定性有关的数学表达式。这个表达式可以被解释为:当你有一个长度为n的序列,其各个观察值的分布符合香农熵为H的分布时,这个序列出现的概率约等于 2 − n H 2^{-nH} 2−nH。
所以,上述表达式的意思是,当n很大时,一个观察序列出现的概率与序列的不确定性(由香农熵H衡量)呈指数关系。当不确定性较低(H较小)时,概率趋于1,表示序列出现的可能性很高;而当不确定性较高(H较大)时,概率趋于0,表示序列出现的可能性很低。这反映了信息论中的一个重要原理,即不确定性越高,信息的压缩(即用更短的编码表示序列)越困难,因此序列出现的概率越低。反之亦然,不确定性越低,信息的压缩越容易,序列出现的概率越高。这也与信息论中的信息理论和编码理论密切相关。
2 − n H 2^{-nH} 2−nH的推导过程:
- 我们有一个随机变量X,它可以取一组可能的值 x 1 , x 2 , ... , x k x_1, x_2, \ldots, x_k x1,x2,...,xk,每个值发生的概率分别是 p ( x 1 ) , p ( x 2 ) , ... , p ( x k ) p(x_1), p(x_2), \ldots, p(x_k) p(x1),p(x2),...,p(xk)。
- 香农熵(Shannon entropy)是一个衡量随机变量不确定性的概念,定义为:
H ( X ) = − ∑ i = 1 k p ( x i ) log 2 ( p ( x i ) ) H(X) = -\sum_{i=1}^{k} p(x_i) \log_2(p(x_i)) H(X)=−i=1∑kp(xi)log2(p(xi))- 考虑一个独立同分布的观察值序列 ( X 1 , X 2 , ... , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,...,Xn),每个 X i X_i Xi都是来自随机变量X的独立样本。
- 这个序列出现的概率可以表示为乘积:
p ( X 1 , X 2 , ... , X n ) = p ( X 1 ) ⋅ p ( X 2 ) ⋅ ... ⋅ p ( X n ) p(X_1, X_2, \ldots, X_n) = p(X_1) \cdot p(X_2) \cdot \ldots \cdot p(X_n) p(X1,X2,...,Xn)=p(X1)⋅p(X2)⋅...⋅p(Xn)- 由于每个 X i X_i Xi都是来自相同的随机变量X,所以它们的概率都相同,即 p ( X 1 ) = p ( X 2 ) = ... = p ( X n ) = p ( X ) p(X_1) = p(X_2) = \ldots = p(X_n) = p(X) p(X1)=p(X2)=...=p(Xn)=p(X)。
- 将这个概率代入序列概率的表达式,得到:
p ( X 1 , X 2 , ... , X n ) = p ( X ) n p(X_1, X_2, \ldots, X_n) = p(X)^n p(X1,X2,...,Xn)=p(X)n- 现在,我们想要将这个概率与香农熵联系起来。当n很大时,根据大数定律,我们可以使用香农熵来近似表示序列出现的概率:
p ( X 1 , X 2 , ... , X n ) ≈ 2 − n H ( X ) p(X_1, X_2, \ldots, X_n) \approx 2^{-nH(X)} p(X1,X2,...,Xn)≈2−nH(X)
这里, H ( X ) H(X) H(X)是随机变量X的香农熵。所以,当n很大时,一个观察序列出现的概率 p ( X 1 , X 2 , ... , X n ) p(X_1, X_2, \ldots, X_n) p(X1,X2,...,Xn)近似等于 2 − n H ( X ) 2^{-nH(X)} 2−nH(X)。这表示序列出现的概率与随机变量X的香农熵H(X)之间的关系。
这促使我们将全体序列组成的集合划分成两个子集,其一是典型集,其中样本熵近似于真实熵;其二是非典型集,包含其余的序列。我们将主要关注典型集,这是因为任何基于典型序列的性质都是以高概率成立的,并且决定着大样本的平均行为。
这段文字描述了在信息论和概率论中常用的一个概念,即典型集 和非典型集,以及它们在研究随机序列时的重要性。让我来解释这些概念以及它们的含义:
- 典型集(Typical Set):典型集是一个包含那些在大样本中以高概率出现的序列的集合。这意味着,如果你有一个随机生成的大样本,典型集中的序列将在这个样本中出现的概率非常高,接近于1。典型集中的序列具有与真实概率分布相一致的特性,因此它们的统计行为通常会接近于理论预期。
- 非典型集(Non-Typical Set):非典型集包含了那些在大样本中以极低概率出现的序列。这些序列在随机样本中的出现几乎可以忽略不计。非典型集中的序列在统计意义上并不重要,因为它们的出现概率非常低,不会对大样本的平均行为产生显著影响。
- 重点关注典型集:文中提到,研究者通常更关注典型集,这是因为典型集中的序列具有高概率出现的特性,它们决定了大样本的平均行为。也就是说,如果你想了解大样本的统计性质,那么你主要关心的是那些在大样本中以高概率出现的典型序列。典型序列在大样本中的频率分布会逼近真实的概率分布,因此它们在统计分析和信息传输等领域中具有重要的应用价值。
总的来说,典型集和非典型集的概念有助于研究者理解随机序列的统计性质,特别是在大样本情况下。典型集中的序列可以被视为代表真实分布的样本,因此它们对于分析和预测大规模数据的行为非常有用。
3.1渐进均分性定理
定理3.3.1(AEP)若