2.5
证明若H(Y|X)=0,则Y是X的函数
若 H ( Y ∣ X ) = 0 H(Y|X) = 0 H(Y∣X)=0,意味着在已知 X X X 的条件下, Y Y Y 的不确定性为零,即给定 X X X 的值,我们完全确定了 Y Y Y 的值。这表明 Y Y Y 的取值完全由 X X X 决定,因此 Y Y Y 是 X X X 的确定性函数。
证明思路如下:
假设 H ( Y ∣ X ) = 0 H(Y|X) = 0 H(Y∣X)=0,即 Y Y Y 在已知 X X X 的条件下没有不确定性。这意味着对于每个可能的 x x x 值,我们都可以唯一地确定 Y Y Y 的值。我们可以表示这一点如下:
∀ x , ∃ y : P ( Y = y ∣ X = x ) = 1 \forall x, \exists y: P(Y = y|X = x) = 1 ∀x,∃y:P(Y=y∣X=x)=1
这表示对于任何 x x x,都存在一个唯一的 y y y,使得在给定 X = x X = x X=x 的情况下, Y Y Y 必然等于 y y y。
因此,我们可以得出结论, Y Y Y 是 X X X 的确定性函数,因为 X X X 的每个可能取值都能唯一地确定 Y Y Y 的取值,没有不确定性。
2.6
条件互信息与无条件互信息。试给出联合随机变量X,Y和Z的例子,使得
(a)I(X;Y|Z)<I(X;Y)
(b)I(X;Y|Z)>I(X;Y)
(a) 一个例子,满足 I ( X ; Y ∣ Z ) < I ( X ; Y ) I(X;Y|Z) < I(X;Y) I(X;Y∣Z)<I(X;Y):
考虑三个二进制随机变量 X、Y 和 Z,它们的联合概率分布如下:
- P(X=0, Y=0, Z=0) = 1/8
- P(X=0, Y=0, Z=1) = 1/8
- P(X=0, Y=1, Z=0) = 1/8
- P(X=0, Y=1, Z=1) = 1/8
- P(X=1, Y=0, Z=0) = 1/8
- P(X=1, Y=0, Z=1) = 1/8
- P(X=1, Y=1, Z=0) = 0
- P(X=1, Y=1, Z=1) = 1/4
现在,我们来计算条件互信息和互信息:
- I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = ( 1 / 2 ) − ( 1 / 2 ) = 0 I(X;Y|Z) = H(X|Z) - H(X|Y, Z) = (1/2) - (1/2) = 0 I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=(1/2)−(1/2)=0
- I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = 1 − ( 1 / 2 ) = 1 / 2 I(X;Y) = H(X) - H(X|Y) = 1 - (1/2) = 1/2 I(X;Y)=H(X)−H(X∣Y)=1−(1/2)=1/2
所以,我们得到 I ( X ; Y ∣ Z ) = 0 < 1 / 2 = I ( X ; Y ) I(X;Y|Z) = 0 < 1/2 = I(X;Y) I(X;Y∣Z)=0<1/2=I(X;Y)。
(b) 一个例子,满足 I ( X ; Y ∣ Z ) > I ( X ; Y ) I(X;Y|Z) > I(X;Y) I(X;Y∣Z)>I(X;Y):
考虑三个二进制随机变量 X、Y 和 Z,它们的联合概率分布如下:
- P(X=0, Y=0, Z=0) = 1/4
- P(X=0, Y=0, Z=1) = 0
- P(X=0, Y=1, Z=0) = 0
- P(X=0, Y=1, Z=1) = 0
- P(X=1, Y=0, Z=0) = 0
- P(X=1, Y=0, Z=1) = 1/4
- P(X=1, Y=1, Z=0) = 0
- P(X=1, Y=1, Z=1) = 1/2
现在,我们来计算条件互信息和互信息:
- I ( X ; Y ∣ Z ) = H ( X ∣ Z ) − H ( X ∣ Y , Z ) = ( 1 / 2 ) − ( 1 / 2 ) = 0 I(X;Y|Z) = H(X|Z) - H(X|Y, Z) = (1/2) - (1/2) = 0 I(X;Y∣Z)=H(X∣Z)−H(X∣Y,Z)=(1/2)−(1/2)=0
- I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = 1 − ( 1 / 2 ) = 1 / 2 I(X;Y) = H(X) - H(X|Y) = 1 - (1/2) = 1/2 I(X;Y)=H(X)−H(X∣Y)=1−(1/2)=1/2
所以,我们得到 I ( X ; Y ∣ Z ) = 0 < 1 / 2 = I ( X ; Y ) I(X;Y|Z) = 0 < 1/2 = I(X;Y) I(X;Y∣Z)=0<1/2=I(X;Y)。
在这两个例子中,我们找到了满足条件 I ( X ; Y ∣ Z ) < I ( X ; Y ) I(X;Y|Z) < I(X;Y) I(X;Y∣Z)<I(X;Y) 和 I ( X ; Y ∣ Z ) > I ( X ; Y ) I(X;Y|Z) > I(X;Y) I(X;Y∣Z)>I(X;Y) 的概率分布。这突显了信息论中条件互信息和互信息的性质,它们可以根据概率分布的不同而变化。
2.12
联合熵的例子。设p(x,y)由2右表给出,试计算
X\Y | 0 | 1 |
---|---|---|
0 | 1/3 | 1/3 |
1 | 0 | 1/3 |
(a)H(X),H(Y)
(b)H(X|Y),H(Y|X)
(c )H(X,Y)
(d)H(Y)-H(Y|X)
(e)I(X;Y)
(f)画出(a)~(e)中所有量的文氏图
( a ) H ( X ) = 2 3 l o g 3 2 + 1 3 l o g 3 = 0.918 b i t s = H ( Y ) H(X)=\frac{2}{3}log\frac{3}{2}+\frac{1}{3}log3=0.918bits=H(Y) H(X)=32log23+31log3=0.918bits=H(Y)
( b ) H ( X ∣ Y ) = 1 3 H ( X ∣ Y = 0 ) + 2 3 H ( X ∣ Y = 1 ) = 0.667 b i t s = H ( Y ∣ X ) H(X|Y)=\frac{1}{3}H(X|Y=0)+\frac{2}{3}H(X|Y=1)=0.667bits=H(Y|X) H(X∣Y)=31H(X∣Y=0)+32H(X∣Y=1)=0.667bits=H(Y∣X)
( c ) H ( X , Y ) = 3 × 1 3 l o g 3 = 1.585 b i t s H(X,Y)=3×\frac{1}{3}log3=1.585bits H(X,Y)=3×31log3=1.585bits
( d ) H ( Y ) − H ( Y ∣ X ) = 0.251 b i t s H(Y)-H(Y|X)=0.251bits H(Y)−H(Y∣X)=0.251bits
( e ) I ( X ; Y ) = H ( Y ) − H ( Y ∣ X ) = 0.251 b i t s I(X;Y)=H(Y)-H(Y|X)=0.251bits I(X;Y)=H(Y)−H(Y∣X)=0.251bits
2.14
设随机变量X,Y的取值分别为 x 1 , x 2 , . . . , x r x_1,x_2,...,x_r x1,x2,...,xr和 y 1 , y 2 , . . . , y s y_1,y_2,...,y_s y1,y2,...,ys,设Z=X+Y。
(a)证明 H ( Z ∣ X ) = H ( Y ∣ X ) H(Z|X)=H(Y|X) H(Z∣X)=H(Y∣X),并讨论如果 X , Y X,Y X,Y独立,则 H ( Y ) ≤ H ( Z ) H(Y)≤H(Z) H(Y)≤H(Z)及 H ( X ) ≤ H ( Z ) H(X)≤H(Z) H(X)≤H(Z)。由此说明独立随机变量的和增加不确定度。
(b)给出一个(必须是相关)随机变量例子,使得 H ( X ) > H ( Z ) H(X)>H(Z) H(X)>H(Z)且 H ( Y ) > H ( Z ) H(Y)>H(Z) H(Y)>H(Z)。
(c )在什么条件下, H ( Z ) = H ( X ) + H ( Y ) H(Z)=H(X)+H(Y) H(Z)=H(X)+H(Y)?
(a) Z = X + Y Z=X+Y Z=X+Y。因此 p ( Z = z ∣ X = x ) = p ( Y = z − x ∣ X = x ) p(Z=z|X=x)=p(Y=z-x|X=x) p(Z=z∣X=x)=p(Y=z−x∣X=x)
这是因为在给定 X X X 的条件下, Z Z Z 的取值取决于 Y Y Y 的取值和 X X X 的取值,而 Z Z Z 等于 X + Y X+Y X+Y。所以,我们可以使用条件概率来表示 Z Z Z 在给定 X X X 的条件下的分布。
具体来说,对于任意给定的 x x x 和 z z z,我们有:
p ( Z = z ∣ X = x ) = p ( X + Y = z ∣ X = x ) p(Z=z|X=x) = p(X+Y=z|X=x) p(Z=z∣X=x)=p(X+Y=z∣X=x)由于 X X X 是已知的,我们可以将 X = x X=x X=x 代入等式中:
p ( Z = z ∣ X = x ) = p ( Y = z − x ∣ X = x ) p(Z=z|X=x) = p(Y=z-x|X=x) p(Z=z∣X=x)=p(Y=z−x∣X=x)这表示在已知 X = x X=x X=x 的情况下, Z Z Z 的取值 z z z 与 Y Y Y 的取值 z − x z-x z−x 有关。这是因为 Z = X + Y Z=X+Y Z=X+Y 的定义决定了这种关系。因此,我们可以使用条件概率 p ( Y = z − x ∣ X = x ) p(Y=z-x|X=x) p(Y=z−x∣X=x) 来表示 Z Z Z 在给定 X = x X=x X=x 的条件下的分布。
H ( Z ∣ X ) = ∑ p ( x ) H ( Z ∣ X = x ) = − ∑ x p ( x ) ∑ z p ( Z = z ∣ X = x ) l o g p ( Z = z ∣ X = x ) = ∑ x p ( x ) ∑ y p ( Y = z − x ∣ X = x ) l o g p ( Y = z − x ∣ X = x ) = ∑ p ( x ) H ( Y ∣ X = x ) = H ( Y ∣ X ) H(Z|X)=\sum p(x)H(Z|X=x)=-\sum\limits_xp(x)\sum\limits_zp(Z=z|X=x)logp(Z=z|X=x)\\ =\sum\limits_xp(x)\sum\limits_yp(Y=z-x|X=x)logp(Y=z-x|X=x)=\sum p(x)H(Y|X=x)=H(Y|X) H(Z∣X)=∑p(x)H(Z∣X=x)=−x∑p(x)z∑p(Z=z∣X=x)logp(Z=z∣X=x)=x∑p(x)y∑p(Y=z−x∣X=x)logp(Y=z−x∣X=x)=∑p(x)H(Y∣X=x)=H(Y∣X)
让我解释一下你提到的这一步:
H ( Z ∣ X ) = ∑ x p ( x ) H ( Z ∣ X = x ) = − ∑ x p ( x ) ∑ z p ( Z = z ∣ X = x ) log p ( Z = z ∣ X = x ) H(Z|X) = \sum_x p(x) H(Z|X=x) = -\sum_x p(x) \sum_z p(Z=z|X=x) \log p(Z=z|X=x) H(Z∣X)=x∑p(x)H(Z∣X=x)=−x∑p(x)z∑p(Z=z∣X=x)logp(Z=z∣X=x)这一步是使用了条件熵的定义,首先将 H ( Z ∣ X ) H(Z|X) H(Z∣X) 表示为关于 X X X 的边缘分布的条件熵,然后展开了条件熵的定义,将其写成了一个求和的形式。
= ∑ x p ( x ) ∑ y p ( Y = z − x ∣ X = x ) log p ( Y = z − x ∣ X = x ) = \sum_x p(x) \sum_y p(Y=z-x|X=x) \log p(Y=z-x|X=x) =x∑p(x)y∑p(Y=z−x∣X=x)logp(Y=z−x∣X=x)接下来,你将 p ( Z = z ∣ X = x ) p(Z=z|X=x) p(Z=z∣X=x) 表示为 p ( Y = z − x ∣ X = x ) p(Y=z-x|X=x) p(Y=z−x∣X=x),这是因为在给定 X = x X=x X=x 的条件下, Z Z Z 的取值是由 Y Y Y 的取值和 X X X 的取值共同决定的,所以你可以用 p ( Y = z − x ∣ X = x ) p(Y=z-x|X=x) p(Y=z−x∣X=x) 来表示它。
= ∑ x p ( x ) H ( Y ∣ X = x ) = \sum_x p(x) H(Y|X=x) =x∑p(x)H(Y∣X=x)然后,你计算了在给定 X = x X=x X=x 的条件下 Y Y Y 的条件熵 H ( Y ∣ X = x ) H(Y|X=x) H(Y∣X=x)。
最后,你对所有可能的 X X X 的取值求和,得到了 H ( Y ∣ X ) H(Y|X) H(Y∣X),这表示在给定 X X X 的条件下 Y Y Y 的条件熵。
这一步的推导是正确的,它从条件熵的定义出发,逐步展开和简化,最终得到了 H ( Z ∣ X ) H(Z|X) H(Z∣X) 与 H ( Y ∣ X ) H(Y|X) H(Y∣X) 相等的结果。这表明在给定 X X X 的条件下, Z Z Z 和 Y Y Y 的条件不确定性相同。
如果X和Y是独立的,那么 H ( Y ∣ X ) = H ( Y ) H(Y|X)=H(Y) H(Y∣X)=H(Y)。因为 I ( X ; Z ) ≥ 0 I(X;Z)≥0 I(X;Z)≥0,我们可以得到 H ( Z ) ≥ H ( Z ∣ X ) = H ( Y ∣ X ) = H ( Y ) H(Z)≥H(Z|X)=H(Y|X)=H(Y) H(Z)≥H(Z∣X)=H(Y∣X)=H(Y),相似的我们可以证明 H ( Z ) ≥ H ( X ) H(Z)≥H(X) H(Z)≥H(X)
首先,如果 X X X 和 Y Y Y 是独立的,那么 H ( Y ∣ X ) = H ( Y ) H(Y|X) = H(Y) H(Y∣X)=H(Y) 是成立的,这是因为在独立的情况下, Y Y Y 的条件不确定性与 X X X 无关,即在知道 X X X 的情况下,对 Y Y Y 的不确定性没有影响,因此 H ( Y ∣ X ) = H ( Y ) H(Y|X) = H(Y) H(Y∣X)=H(Y)。
现在,让我们讨论 H ( Z ) H(Z) H(Z)、 H ( Z ∣ X ) H(Z|X) H(Z∣X)、 H ( Y ) H(Y) H(Y) 和 H ( X ) H(X) H(X) 之间的关系。由于互信息的非负性质, I ( X ; Z ) ≥ 0 I(X;Z) \geq 0 I(X;Z)≥0,我们可以得到:
H ( Z ) ≥ H ( Z ∣ X ) H(Z) \geq H(Z|X) H(Z)≥H(Z∣X)这是因为 H ( Z ∣ X ) H(Z|X) H(Z∣X) 是在给定 X X X 的情况下 Z Z Z 的条件熵,而 H ( Z ) H(Z) H(Z) 是 Z Z Z 的边缘熵,根据条件熵的性质,条件熵不会超过边缘熵。
另一方面,由于 X X X 和 Y Y Y 是独立的,我们知道 H ( Y ∣ X ) = H ( Y ) H(Y|X) = H(Y) H(Y∣X)=H(Y)。因此,我们可以将不等式 H ( Z ) ≥ H ( Z ∣ X ) H(Z) \geq H(Z|X) H(Z)≥H(Z∣X) 改写为:
H ( Z ) ≥ H ( Y ) H(Z) \geq H(Y) H(Z)≥H(Y)这意味着 Z Z Z 的边缘熵不小于 Y Y Y 的熵。
类似地,根据独立性,我们可以得到 H ( Z ) ≥ H ( X ) H(Z) \geq H(X) H(Z)≥H(X),即 Z Z Z 的边缘熵不小于 X X X 的熵。
综上所述,如果 X X X 和 Y Y Y 是独立的,那么可以得出结论: H ( Z ) ≥ H ( Z ∣ X ) = H ( Y ∣ X ) = H ( Y ) H(Z) \geq H(Z|X) = H(Y|X) = H(Y) H(Z)≥H(Z∣X)=H(Y∣X)=H(Y) 和 H ( Z ) ≥ H ( X ) H(Z) \geq H(X) H(Z)≥H(X)。这表示在独立的情况下, Z Z Z 的边缘熵不小于 Y Y Y 和 X X X 的熵。
(b)考虑X和Y的联合概率密度使得
X = − Y = { 1 可能性 1 / 2 0 可能性 1 / 2 X=-Y=\begin{cases} 1 & 可能性1/2 \\ 0 & 可能性1/2 \end{cases} X=−Y={10可能性1/2可能性1/2
那么H(X)=H(Y)=1,而Z=0的概率是1,因此H(Z)=0
(c)我们已知
H ( Z ) ≤ H ( X , Y ) ≤ H ( X ) + H ( Y ) H(Z)≤H(X,Y)≤H(X)+H(Y) H(Z)≤H(X,Y)≤H(X)+H(Y)
因为Z是(X,Y)的函数,H(X,Y)=H(X)+H(Y|X)≤H(X)+H(Y)。
上述不等式反映了信息熵的基本性质,其中 H ( Z ) H(Z) H(Z) 表示随机变量 Z Z Z 的熵, H ( X , Y ) H(X, Y) H(X,Y) 表示随机变量 X X X 和 Y Y Y 的联合熵, H ( X ) H(X) H(X) 和 H ( Y ) H(Y) H(Y) 分别表示随机变量 X X X 和 Y Y Y 的独立熵。
H ( Z ) ≤ H ( X , Y ) H(Z) \leq H(X, Y) H(Z)≤H(X,Y):
这是由信息熵的定义以及联合熵的性质决定的。信息熵是用来度量随机变量的不确定性的,而联合熵是用来度量多个随机变量一起的不确定性。 H ( Z ) H(Z) H(Z) 表示随机变量 Z Z Z 的不确定性,它是在给定 X X X 和 Y Y Y 的条件下 X + Y X+Y X+Y 的不确定性。因此,根据信息熵的定义, H ( Z ) H(Z) H(Z) 不会大于同时考虑 X X X 和 Y Y Y 的联合不确定性,即 H ( Z ) ≤ H ( X , Y ) H(Z) \leq H(X, Y) H(Z)≤H(X,Y)。
信息熵的定义是用来度量一个随机变量的不确定性的度量。对于一个随机变量 Z Z Z, H ( Z ) H(Z) H(Z) 表示了它的不确定性的度量。现在,假设我们有两个随机变量 X X X 和 Y Y Y,它们可以合并成一个新的随机变量 X + Y X+Y X+Y(这是因为它们的和仍然是一个随机变量)。考虑情况一:我们首先计算随机变量 X + Y X+Y X+Y 的不确定性 H ( Z ) H(Z) H(Z),这表示在不知道 X X X 和 Y Y Y 之间的关系的情况下,我们对 X + Y X+Y X+Y 的不确定性的度量。
情况二:现在,我们考虑联合不确定性,即同时考虑 X X X 和 Y Y Y 的联合不确定性 H ( X , Y ) H(X, Y) H(X,Y)。这表示我们已知 X X X 和 Y Y Y 之间的关系,并且在这个关系下考虑它们的联合不确定性。
根据信息熵的定义,对于情况一, H ( Z ) H(Z) H(Z) 应该表示 X + Y X+Y X+Y 的不确定性,因为我们不知道它们之间的关系。
对于情况二, H ( X , Y ) H(X, Y) H(X,Y) 表示已知 X X X 和 Y Y Y 之间的关系时的联合不确定性。在这种情况下,我们有更多的信息,因为我们知道它们之间的关系,所以联合不确定性可能会降低。
因此, H ( Z ) H(Z) H(Z) 不会大于同时考虑 X X X 和 Y Y Y 的联合不确定性 H ( X , Y ) H(X, Y) H(X,Y),因为在情况一中,我们没有利用关于 X X X 和 Y Y Y 之间的关系的信息,而在情况二中,我们利用了这些信息来计算联合不确定性。这就是为什么可以说 H ( Z ) ≤ H ( X , Y ) H(Z) \leq H(X, Y) H(Z)≤H(X,Y)。
2.11 相关性的度量
设 X 1 X_1 X1与 X 2 X_2 X2同分布,但不一定独立。设
ρ = 1 − H ( X 2 ∣ X 1 ) H ( X 1 ) \rho=1-\frac{H(X_2|X_1)}{H(X_1)} ρ=1−H(X1)H(X2∣X1)
( A )证明 ρ = I ( X 1 ; X 2 ) H ( X 1 ) \rho=\frac{I(X_1;X_2)}{H(X_1)} ρ=H(X1)I(X1;X2)
( B )证明 0 ≤ ρ ≤ 1 0≤\rho≤1 0≤ρ≤1
( C )何时有 ρ = 0 \rho=0 ρ=0
( D )何时有 ρ = 1 \rho=1 ρ=1
(a) ρ = H ( X 1 ) − H ( X 2 ∣ X 1 ) H ( X 1 ) = H ( X 2 ) − H ( X 2 ∣ X 1 ) H ( X 1 ) = I ( X 1 ; X 2 ) H ( X 1 ) \rho=\frac{H(X_1)-H(X_2|X_1)}{H(X_1)}=\frac{H(X_2)-H(X_2|X_1)}{H(X_1)}=\frac{I(X_1;X_2)}{H(X_1)} ρ=H(X1)H(X1)−H(X2∣X1)=H(X1)H(X2)−H(X2∣X1)=H(X1)I(X1;X2)
(B)因为 0 ≤ H ( X 2 ∣ X 1 ) ≤ H ( X 2 ) = H ( X 1 ) 0≤H(X_2|X_1)≤H(X_2)=H(X_1) 0≤H(X2∣X1)≤H(X2)=H(X1)
0 ≤ H ( X 2 ∣ X 1 ) H ( X 1 ) ≤ 1 0≤\frac{H(X_2|X_1)}{H(X_1)}≤1 0≤H(X1)H(X2∣X1)≤1 0 ≤ ρ ≤ 1 0≤\rho ≤1 0≤ρ≤1
(c)当且仅当 I ( X 1 ; X 2 ) = 0 I(X_1;X_2)=0 I(X1;X2)=0,即 X 1 X_1 X1和 X 2 X_2 X2独立
(d)当且仅当 I ( X 1 ; X 2 ) = 1 I(X_1;X_2)=1 I(X1;X2)=1,即 X 1 X_1 X1和 X 2 X_2 X2互为对方的函数
2.25
I ( X ; Y ; Z ) = I ( X ; Y ) − I ( X ; Y ∣ Z ) = I ( X ; Y ) − ( I ( X ; Y , Z ) − I ( X ; Z ) ) = I ( X ; Y ) + I ( X ; Z ) − I ( X ; Y , Z ) I(X;Y;Z)=I(X;Y)-I(X;Y|Z)=I(X;Y)-(I(X;Y,Z)-I(X;Z))=I(X;Y)+I(X;Z)-I(X;Y,Z) I(X;Y;Z)=I(X;Y)−I(X;Y∣Z)=I(X;Y)−(I(X;Y,Z)−I(X;Z))=I(X;Y)+I(X;Z)−I(X;Y,Z)
这是基于信息论中的互信息(Mutual Information)和条件互信息(Conditional Mutual Information)的性质得出的等式。让我解释一下每一步是如何得出的:
首先,这个等式是互信息和条件互信息的定义和性质的应用。
- I ( X ; Y ; Z ) I(X;Y;Z) I(X;Y;Z) 是指随机变量 X、Y 和 Z 之间的互信息。它可以表示为 I ( X ; Y ; Z ) = I ( X ; Y ) − I ( X ; Y ∣ Z ) I(X;Y;Z) = I(X;Y) - I(X;Y|Z) I(X;Y;Z)=I(X;Y)−I(X;Y∣Z)。
- I ( X ; Y ∣ Z ) I(X;Y|Z) I(X;Y∣Z) 是给定 Z 条件下 X 和 Y 之间的条件互信息。所以, I ( X ; Y ; Z ) = I ( X ; Y ) − I ( X ; Y ∣ Z ) I(X;Y;Z) = I(X;Y) - I(X;Y|Z) I(X;Y;Z)=I(X;Y)−I(X;Y∣Z) 表示了在已知 Z 的情况下,X 和 Y 之间的互信息减去了条件互信息。
- 接下来,我们使用条件互信息的定义: I ( X ; Y ∣ Z ) = I ( X ; Y , Z ) − I ( X ; Z ) I(X;Y|Z) = I(X;Y,Z) - I(X;Z) I(X;Y∣Z)=I(X;Y,Z)−I(X;Z),将 I ( X ; Y ∣ Z ) I(X;Y|Z) I(X;Y∣Z) 展开为 I ( X ; Y , Z ) − I ( X ; Z ) I(X;Y,Z) - I(X;Z) I(X;Y,Z)−I(X;Z)。
-
将这个表达式代入第一步的等式中,我们得到 I ( X ; Y ; Z ) = I ( X ; Y ) − ( I ( X ; Y , Z ) − I ( X ; Z ) ) I(X;Y;Z) = I(X;Y) - (I(X;Y,Z) - I(X;Z)) I(X;Y;Z)=I(X;Y)−(I(X;Y,Z)−I(X;Z))。
-
最后,重新排列项,得到 I ( X ; Y ; Z ) = I ( X ; Y ) + I ( X ; Z ) − I ( X ; Y , Z ) I(X;Y;Z) = I(X;Y) + I(X;Z) - I(X;Y,Z) I(X;Y;Z)=I(X;Y)+I(X;Z)−I(X;Y,Z)。
这个等式的含义在于,X、Y 和 Z 之间的互信息可以分解成两个独立部分:X 和 Y 之间的互信息以及 X 和 Z 之间的互信息,减去 X、Y 和 Z 三者之间的联合互信息。这种分解可以在信息论中的各种应用中很有用,帮助理解信息的流动和依赖关系。