对于深度学习来说,概率论非常重要,时不时回顾一下的基本定义,理清思路,故做以下笔记,如有不对请指正:
随机试验
随机试验用于描述在相同条件下重复进行、结果具有不确定性的实验或观察过程。
例如:抛硬币,掷骰子,药物疗效试验,测量灯泡寿命均是一个随机试验,
随机试验需要满足以下特征
- 可重复性 :即试验可以在相同的条件下重复执行;
- 例:抛一枚硬币多次,每次的环境条件(如力度、高度)尽可能一致。
- 反例:新药的人体试验,每个人的身体条件不一致
- 结果明确性 :试验的所有可能结果事先明确可知 ,且结果不止一个;
- 例:抛硬币的结果只能是"正面"或"反面"。
- 反例:对画作进行1-10分的评分,结果的不确定性源于主观性,而非随机性。故不可称为随机试验;
- 不确定性 :单次试验的结果不可预知,但结果一定是所有可能结果中的一个。
- 例:抛硬币前无法知道是正面还是反面。
- 反例:太阳升起的方向,一定是东方,故不存在不确定性
随机试验:指的是一个试验本身,不是某个结果,而是描述的一个过程;
样本空间
随机试验的所有可能结果称之为样本空间 ,记为 Ω \Omega Ω
例:投掷一个公平硬币,所有可能结果为 { 正面 , 反面 } \{正面,反面\} {正面,反面},即称样本空间 ,记为: Ω = { 正面 , 反面 } \Omega=\{正面,反面\} Ω={正面,反面};
例:灯泡的寿命,所有的可能结果为正实数,即 Ω = [ 0 , + ∞ ) \Omega=[0, +\infty) Ω=[0,+∞);
随机变量
随机变量是将随机试验的可能结果 ,映射到实数的函数 ,注意本质上是映射函数;
实际就是将一个文字描述变成一个数值的描述;
例:投掷一个公平硬币,所有可能结果为 { 正面 , 反面 } \{正面,反面\} {正面,反面},即: Ω = { 正面 , 反面 } \Omega=\{正面,反面\} Ω={正面,反面};定义一个随机变量 X X X(函数),如果使用分段函数的定义方式类似于:
X ( ω ) = { 1 , ω = 正面 0 , ω = 反面 X(\omega) = \begin{cases} 1, & \omega =正面 \\ 0, & \omega= 反面 \\ \end{cases} X(ω)={1,0,ω=正面ω=反面则一般使用 X = 1 X=1 X=1表示正面,故有:
P ( 正面 ) = P ( X = 1 ) = 0.5 P(正面)=P(X=1)=0.5 P(正面)=P(X=1)=0.5
事件
样本空间的子集,表示某些结果的组合。
例1:投掷一个公平硬币, Ω = { H , T } \Omega=\{H,T\} Ω={H,T}
事件A:"出现正面"。记为: A = { H } A=\{H\} A={H} 。
事件B:至少出现一次正面(若试验为连续抛多次);记为: B = { 所有包含 H 的序列 } B=\{所有包含H的序列\} B={所有包含H的序列}
例2:从一批灯泡中随机抽取一只,测试其寿命。事件 A:寿命大于 1000 小时,记为 A = { t ∣ t > 1000 } A=\{t∣t>1000\} A={t∣t>1000}
- 可使用随机变量来描述事件
例1:投掷一个公平硬币,出现正面可以写为 X = 1 X=1 X=1,出现反面可以写为: X = 0 X=0 X=0;(随机变量X定义为1表示正面,0表示反面)
例2:从一批灯泡中随机抽取一只,测试其寿命,大于1000小时,写为: X > 1000 X>1000 X>1000;(随机变量X定义为寿命小时数)
例3:抛出一个6面均匀骰子,点数大于2的事件,可写为: X > 2 X>2 X>2; 点数等于2,4,6的事件: X ∈ { 2 , 4 , 6 } X\in\{2,4,6\} X∈{2,4,6}
可见,随机变量的主要作用是将自然语言描述的事件,转变为数学语言的描述的工具;
- 对于单个试验,事件可以有无数种定义;例如投掷一个公平6面骰子,可以定义事件A-F是得到1-6点,显然定义随机变量如下最合适
X ( ω ) = { 1 , ω = 1 点 2 , ω = 2 点 ⋯ 6 , ω = 6 点 X(\omega) = \begin{cases} 1, & \omega =1点\\ 2, & \omega= 2点\\ \cdots\\ 6, & \omega= 6点 \end{cases} X(ω)=⎩ ⎨ ⎧1,2,⋯6,ω=1点ω=2点ω=6点- 注意随机变量是用来表达所有可能结果 为数学语言的工具,而不是表达所定义的所有事件的;
例如上例还可以继续定义事件G是大于4点,事件H是小于5点;那么这两个事件不是用来定义随机变量,而是使用随机变量来描述事件;- 定义随机变量时,实际是需要找到所有互斥的事件,并且所有的互斥事件的并集为样本空间;需要满足总概率为1的基本性质
- 对于上例如果我只关注小于4点和大于3点两种事件;我也可以定义随机变量为:
X ( ω ) = { 1 , ω = 1 , 2 , 3 点 2 , ω = 4 , 5 , 6 点 X(\omega) = \begin{cases} 1, & \omega =1,2,3点\\ 2, & \omega=4,5,6点\\ \end{cases} X(ω)={1,2,ω=1,2,3点ω=4,5,6点
此时的概率 P ( X = 1 ) = 0.5 ; P ( X = 2 ) = 0.5 P(X=1)=0.5;P(X=2)=0.5 P(X=1)=0.5;P(X=2)=0.5- 注意定义时不可遗漏所有可能的结果
注意,随机变量是描述事件的工具,不是使用事件定义随机变量,随机变量只和样本空间有关
样本空间与事件的定义关系
1. 样本空间的唯一性
- 定义 :样本空间(Sample Space)是随机试验所有可能结果的集合,由试验本身的性质决定。
- 示例 :
- 抛硬币: Ω = { 正面 , 反面 } \Omega = \{\text{正面}, \text{反面}\} Ω={正面,反面}
- 掷骰子: Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6}
- 观察温度: Ω = { x ∈ R ∣ x > − 273.15 } \Omega = \{x \in \mathbb{R} \mid x > -273.15\} Ω={x∈R∣x>−273.15}
- 关键点 :样本空间是试验结果的客观存在,不会因研究目的改变。
2. 事件的多样性与人为定义
- 定义 :事件(Event)是样本空间的子集,表示我们感兴趣的某些结果。
- 特点 :
- 灵活性:事件可以根据研究需求灵活定义。
- 数量 :理论上可定义 2 ∣ Ω ∣ 2^{|\Omega|} 2∣Ω∣ 个事件(若样本空间有限)。
- 示例 :掷骰子时,样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } \Omega = \{1,2,3,4,5,6\} Ω={1,2,3,4,5,6},可定义以下事件:
- 事件A:偶数点( { 2 , 4 , 6 } \{2,4,6\} {2,4,6})
- 事件B:大于3的点( { 4 , 5 , 6 } \{4,5,6\} {4,5,6})
- 事件C:1点或6点( { 1 , 6 } \{1,6\} {1,6})
- 事件D:质数点( { 2 , 3 , 5 } \{2,3,5\} {2,3,5})
3. 样本空间与事件的关系
- 样本空间是事件的"舞台" :
- 所有事件必须基于样本空间定义,不能超出其范围。
- 例如:掷骰子时无法定义"掷出7点"这样的事件。
- 事件的互斥与互补 :
- 互斥事件 :无交集(如 { 1 , 2 } \{1,2\} {1,2} 和 { 3 , 4 } \{3,4\} {3,4})。
- 对立事件 :互斥且并集为样本空间(如 { 1 , 2 , 3 } \{1,2,3\} {1,2,3} 和 { 4 , 5 , 6 } \{4,5,6\} {4,5,6})。
4. 总结
- 样本空间是唯一的:由试验本身决定,包含所有可能结果。
- 事件是灵活的:可根据研究需求定义任意数量的事件,但必须基于样本空间。
- 研究目的驱动事件定义:不同的问题需要关注不同的结果组合。
概率
概率(probability),用 P P P表示,是度量事件发生可能性大小的数值
概率的计算方式
-
古典概率
适用于有限且等可能的基本事件的场景,通过理论计算直接得出概率。概率使用 P ( A ) P(A) P(A)表示;
-
频率概率
通过大量随机试验,可以得到逼近真实概率的结果,且试验次数越多,越接近真实概率;
- 在 n n n次试验中, A A A事件发生的频数 记为 n A n_A nA
- A A A事件出现;的频率 为: n A / n n_A/n nA/n,记为: f n ( A ) f_n(A) fn(A)
- 对于对于独立重复试验,在一定条件下的A事件的频率等于概率 : lim n → ∞ f n ( A ) = P ( A ) \lim_{n \to \infty}f_n(A)=P(A) n→∞limfn(A)=P(A)
概率公理:
- 非负性:对于每个事件: P ( A ) ≥ 0 P(A)\ge 0 P(A)≥0
- 规范性:对于必然事件: P ( S ) = 1 P(S) = 1 P(S)=1
- 可列可加性:对于两两不相容的事件(互斥事件,即不可能同时发生),对于 A 1 , A 2 , ... , 且 A i A j = ∅ , i ≠ j , i = 1 , 2 , 3 , ... A_1,A_2,\dots,且A_iA_j = \varnothing,i\ne j,i=1,2,3,\dots A1,A2,...,且AiAj=∅,i=j,i=1,2,3,...有 P ( A 1 ∪ A 2 ∪ ⋯ ) = P ( A 1 ) + P ( A 2 ) + ⋯ P(A_1\cup A_2 \cup \cdots)=P(A_1)+P(A_2)+\cdots P(A1∪A2∪⋯)=P(A1)+P(A2)+⋯
可列可加性数学表达也可以写作:(看看得了,一个意思表达):
P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P(\bigcup_{i=1}^\infty A_i)=\sum_{i=1}^\infty{P(A_i)} P(i=1⋃∞Ai)=i=1∑∞P(Ai)
实际就是概率必须在0-1之间,然后不相容的事件概率之和等于出现之中任意一个事件的概率发生的概率;
期望
期望是随机变量所有可能结果的加权平均,权重为对应概率。
注意,是随机变量的所有可能结果 ,不是所有事件 的可能结果,换句话说,期望是和事件无关的;
注意,期望与试验次数,试验样本结果均无关,反应的是理论上的随机变量均值,也可以认为是无穷次试验的结果均值;
-
若随机变量 X X X 的可能取值为 x 1 , x 2 , ... , x n x_1, x_2, \dots, x_n x1,x2,...,xn,对应概率为 p ( x 1 ) , p ( x 2 ) , ... , p ( x n ) p(x_1), p(x_2), \dots, p(x_n) p(x1),p(x2),...,p(xn),则期望为:
E [ X ] = ∑ i = 1 n x i p ( x i ) \mathbb{E}[X] = \sum_{i=1}^{n} x_i p(x_i) E[X]=i=1∑nxip(xi) -
若对随机变量 X X X 做一个函数变换 g ( X ) g(X) g(X),那么他的期望会同步变化为 E [ g ( X ) ] \mathbb{E}[g(X)] E[g(X)],即:
E [ g ( X ) ] = ∑ i = 1 n g ( x i ) p ( x i ) \mathbb{E}[g(X)] = \sum_{i=1}^{n} g(x_i) p(x_i) E[g(X)]=i=1∑ng(xi)p(xi)
例 :
E [ X 2 − 10 ] = ∑ i = 1 n ( x i 2 − 10 ) p ( x i ) \mathbb{E}[X^2 - 10] = \sum_{i=1}^{n} (x_i^2 - 10) p(x_i) E[X2−10]=i=1∑n(xi2−10)p(xi)附:常数的期望等于其本身
方差
样本方差
-
我们中学都学过,对于一组数据 x 1 , x 2 , x 3 , ... , x n x_1, x_2, x_3, \dots, x_n x1,x2,x3,...,xn,需要知道他的离散程度,求他的方差/标准差即可;方差公式如下:
s 2 = ( x 1 − x ˉ ) 2 + ( x 2 − x ˉ ) 2 + ⋯ + ( x n − x ˉ ) 2 n s^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{n} s2=n(x1−xˉ)2+(x2−xˉ)2+⋯+(xn−xˉ)2或表达为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2 -
对于以上的例子, x 1 , x 2 , x 3 , ... , x n x_1, x_2, x_3, \dots, x_n x1,x2,x3,...,xn 可以认为是 n n n 次试验的试验结果,即试验样本 ,得到的方差即样本方差;
随机变量
-
如果我需要衡量一个随机变量 ,即所有可能出现的结果的离散程度;定义为随机变量方差 (离散型)写为 Var ( X ) \text{Var}(X) Var(X)
-
显然可见,是当采样次数 k → ∞ k \to \infty k→∞ 时, s 2 s^2 s2 的值;即执行无限次采样的结果的方差;
-
由于采样到不同结果的概率不同,当执行无数次采样时,每一个随机变量被采样的可能性,就是概率 ;概率乘以总采样次数即某个变量的频数,显然为: n A = k ⋅ p ( x i ) n_A = k \cdot p(x_i) nA=k⋅p(xi)
-
若随机变量 X X X 的可能取值为 x 1 , x 2 , ... , x n x_1, x_2, \dots, x_n x1,x2,...,xn,对应概率为 p ( x 1 ) , p ( x 2 ) , ... , p ( x n ) p(x_1), p(x_2), \dots, p(x_n) p(x1),p(x2),...,p(xn);则当采样 k k k 次后:若 k → ∞ k \to \infty k→∞;则 x 1 x_1 x1 出现了 k ⋅ p ( x 1 ) k \cdot p(x_1) k⋅p(x1) 次; 那么套用样本方差的公式,随机变量方差就可以写为:
Var ( X ) = 1 k [ k ⋅ p ( x 1 ) ( x 1 − x ˉ ) 2 + k ⋅ p ( x 2 ) ( x 2 − x ˉ ) 2 + ⋯ + k ⋅ p ( x n ) ( x n − x ˉ ) 2 ] = p ( x 1 ) ( x 1 − x ˉ ) 2 + p ( x 2 ) ( x 2 − x ˉ ) 2 + ⋯ + p ( x n ) ( x n − x ˉ ) 2 \begin{align*} \text{Var}(X) &= \frac{1}{k} \left[ k \cdot p(x_1)(x_1 - \bar{x})^2 + k \cdot p(x_2)(x_2 - \bar{x})^2 + \cdots + k \cdot p(x_n)(x_n - \bar{x})^2 \right] \\ &= p(x_1)(x_1 - \bar{x})^2 + p(x_2)(x_2 - \bar{x})^2 + \cdots + p(x_n)(x_n - \bar{x})^2 \end{align*} Var(X)=k1[k⋅p(x1)(x1−xˉ)2+k⋅p(x2)(x2−xˉ)2+⋯+k⋅p(xn)(xn−xˉ)2]=p(x1)(x1−xˉ)2+p(x2)(x2−xˉ)2+⋯+p(xn)(xn−xˉ)2其中均值的其实就是期望:
x ˉ = 1 k [ k ⋅ x 1 p ( x 1 ) + k ⋅ x 1 p ( x 1 ) + ⋯ + k ⋅ x 1 p ( x n ) ] = ∑ i = 1 n x i p ( x i ) = E [ X ] \begin{align*} \bar{x} &= \frac{1}{k} \left[ k \cdot x_1 p(x_1) + k \cdot x_1 p(x_1) + \cdots + k \cdot x_1 p(x_n) \right] \\ &= \sum_{i=1}^{n} x_i p(x_i) \\ &= \mathbb{E}[X] \end{align*} xˉ=k1[k⋅x1p(x1)+k⋅x1p(x1)+⋯+k⋅x1p(xn)]=i=1∑nxip(xi)=E[X]所以
Var ( X ) = p ( x 1 ) [ x 1 − E [ X ] ] 2 + p ( x 2 ) [ x 2 − E [ X ] ] 2 + ⋯ + p ( x n ) [ x n − E [ X ] ] 2 = ∑ i = 1 n p ( x i ) [ x i − E [ X ] ] 2 = E [ ( X − E [ X ] ) 2 ] \begin{align} \text{Var}(X) &= p(x_1)[x_1 - \mathbb{E}[X]]^2 + p(x_2)[x_2 - \mathbb{E}[X]]^2 + \cdots + p(x_n)[x_n - \mathbb{E}[X]]^2 \\ &= \sum_{i=1}^{n} p(x_i)[x_i - \mathbb{E}[X]]^2 \\ &= \mathbb{E}[(X - \mathbb{E}[X])^2] \end{align} Var(X)=p(x1)[x1−E[X]]2+p(x2)[x2−E[X]]2+⋯+p(xn)[xn−E[X]]2=i=1∑np(xi)[xi−E[X]]2=E[(X−E[X])2]( 2 ) → ( 3 ) 请参考 : E [ g ( X ) ] = ∑ i = 1 n g ( x i ) p ( x i ) (2)\to(3) 请参考: \mathbb{E}[g(X)] = \sum_{i=1}^{n} g(x_i) p(x_i) (2)→(3)请参考:E[g(X)]=i=1∑ng(xi)p(xi)
-
其中式 (2)(3) 就是方差的 2 种形式,以下推导另一种形式:
令式 ( 2 ) (2) (2) 中 E [ X ] → μ \mathbb{E}[X] \to \mu E[X]→μ. 则
Var ( X ) = E [ ( X − μ ) 2 ] = E [ X 2 − 2 μ X − μ 2 ] = E [ X 2 ] − 2 μ E [ X ] − E [ μ 2 ] 又 E [ X ] = μ ; μ 2 为常数 = E [ X 2 ] − 2 μ 2 − μ 2 = E [ X 2 ] − μ 2 = E [ X 2 ] − ( E [ X ] ) 2 \begin{align*} \text{Var}(X) &= \mathbb{E}[(X - \mu)^2] \\ &= \mathbb{E}[X^2 - 2\mu X - \mu^2] \\ &= \mathbb{E}[X^2] - 2\mu \mathbb{E}[X] - \mathbb{E}[\mu^2] \\ 又 \mathbb{E}[X] = \mu; \mu^2 为常数 \\ &= \mathbb{E}[X^2] - 2\mu^2 - \mu^2 \\ &= \mathbb{E}[X^2] - \mu^2 \\ &= \mathbb{E}[X^2] - (\mathbb{E}[X])^2 \end{align*} Var(X)又E[X]=μ;μ2为常数=E[(X−μ)2]=E[X2−2μX−μ2]=E[X2]−2μE[X]−E[μ2]=E[X2]−2μ2−μ2=E[X2]−μ2=E[X2]−(E[X])2
场景 | 公式 |
---|---|
期望形式 | Var ( X ) = E [ ( X − μ ) 2 ] \text{Var}(X) = \mathbb{E}[(X - \mu)^2] Var(X)=E[(X−μ)2] |
推导形式 | Var ( X ) = E [ X 2 ] − ( E [ X ] ) 2 \text{Var}(X) = \mathbb{E}[X^2] - (\mathbb{E}[X])^2 Var(X)=E[X2]−(E[X])2 |
离散型随机变量 | Var ( X ) = ∑ i = 1 n p ( x i ) ( x i − μ ) 2 \text{Var}(X) = \sum_{i=1}^{n} p(x_i)(x_i - \mu)^2 Var(X)=∑i=1np(xi)(xi−μ)2 |
连续型随机变量 | Var ( X ) = ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x \text{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx Var(X)=∫−∞∞(x−μ)2f(x)dx |
样本方差 | s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n−11∑i=1n(xi−xˉ)2 |
分布
- 分布是对所有可能事件及其对应概率的系统性描述;分布描述随机变量取值的概率规律,反映事件发生的概率如何分配到不同结果上。
- 对于离散事件,分布就是每一个概率之和,对于连续事件就是概率的积分;
信息量
- 概率越大的事件,信息量越小
- 概率越小的事件,信息量越大
- 独立事件的信息量可以相加
即:量化一个事件发生时所携带的信息多少
示例:
- 我今天没有出车祸,概率很大,明显是一句废话,含的信息量很小
- 我今天出车祸了,概率很小,听到消息的亲戚朋友很震惊,含的信息量就很大
故信息量 I ( x ) I(x) I(x)与概率 p ( x ) {p(x)} p(x)应成反比;即 I ( x ) ∝ 1 p ( x ) I(x)\propto \frac {1}{p(x)} I(x)∝p(x)1
- 我今天出车祸了,公司也倒闭了,是互相独立的事件;和老婆说了,老婆很震惊,两件事件的信息量应是可以相加的; 如我今天出车祸了(撞死的是老板),导致公司倒闭了,那么2件事情就不是独立事件,信息量就不能相加,且显然可知信息量更大了!
事件 A A A 和 B B B 位 独立事件 时,同时发生的概率为: P ( A ∩ B ) = P ( A ) × P ( B ) P(A \cap B)=P(A)\times P(B) P(A∩B)=P(A)×P(B)
要使:
I ( x ) ∝ 1 p ( x ) I ( A ) + I ( B ) ∝ 1 p ( A ∪ B ) = 1 p ( A ) × p ( B ) 则令 : I ( x ) = log n 1 p ( x ) 即可 I ( A ) + I ( B ) = log n 1 p ( A ) + log n 1 p ( B ) = log n 1 p ( A ) p ( B ) = − l o g n ( p ( A ) p ( B ) ) \begin{gather*} I(x)\propto \frac {1}{p(x)}\\ I(A)+I(B) \propto\frac{1}{p(A\cup B)}=\frac{1}{p(A)\times p(B)}\\ 则令:I(x)=\log_{n}\frac{1}{p(x)}即可\\ \begin{aligned} I(A)+I(B)=&\log_{n}\frac{1}{p(A)}+\log_{n}\frac{1}{p(B)}\\ &=\log_{n}\frac{1}{p(A)p(B)}\\ &=-log_{n}(p{(A)p(B)}) \end{aligned} \end{gather*} I(x)∝p(x)1I(A)+I(B)∝p(A∪B)1=p(A)×p(B)1则令:I(x)=lognp(x)1即可I(A)+I(B)=lognp(A)1+lognp(B)1=lognp(A)p(B)1=−logn(p(A)p(B))
故信息量定义为:
I ( x ) = log n 1 p ( x ) I(x)=\log_{n}\frac{1}{p(x)} I(x)=lognp(x)1
- 底数为 2 2 2:单位为比特(bit),适用于二进制系统(如计算机通信)。
- 底数为 e e e:单位为奈特(nat),常用于数学和物理学。
- 底数为 10 10 10:单位为哈特莱(Hartley),适用于十进制场景。
示例:抛出不均匀硬币正面朝上的概率是0.8,则连续两次均为正面的概率是0.64,信息量如下:
I ( x 1 ) = log 2 1 0.8 ≈ 0.3219 I ( x 1 ) + I ( x 2 ) = log 2 1 0.8 × 2 = log 2 1 0.64 ≈ 0.6438 \begin{gather*} I(x_1) = \log_{2}{\frac {1}{0.8}}\approx 0.3219\\ I(x_1)+I(x_2)= \log_{2}{\frac {1}{0.8}}\times 2=\log_{2}{\frac {1}{0.64}}\approx 0.6438 \end{gather*} I(x1)=log20.81≈0.3219I(x1)+I(x2)=log20.81×2=log20.641≈0.6438
香农熵
- 香农熵量化信息的不确定性或混乱程度;越混乱值就越大,反之越小;
- 示例1:存在以下两个硬币,抛出,比较香农熵 H ( X ) H(X) H(X):
- 均匀硬币
- 非均匀硬币 P ( 正 ) = 0.8 , P ( 负 ) = 0.2 P(正)=0.8,P(负)=0.2 P(正)=0.8,P(负)=0.2
首先直观的感受,谁更混乱一点,谁更稳定;
例如你是一个赌徒,猜中就可以获得1元;上述2个硬币,你当然愿意选择硬币2,因为只需要每次猜正面就好了,有8成可能性猜中;故认为2硬币更稳定,极端一点,有一个99.999%都是正面的硬币,应该非常稳定,而均匀硬币则是最混乱的;
即 H ( X 1 ) > H ( X 2 ) H(X_1)>H(X_2) H(X1)>H(X2)
- 示例2:存在以下4个六面骰子,抛出,比较香农熵 H ( X ) H(X) H(X)
- 均匀骰子
- P ( 1 ) = 1 2 ; P ( 2 − 6 ) = 1 10 P(1)=\frac12;P(2-6)=\frac1{10} P(1)=21;P(2−6)=101
- P ( 1 ) = 1 3 ; P ( 2 − 6 ) = 2 15 P(1)=\frac13;P(2-6)=\frac2{15} P(1)=31;P(2−6)=152
- P ( 1 ) = 1 3 ; P ( 2 − 3 ) = 1 6 ; P ( 4 − 6 ) = 1 9 ; P(1)=\frac13;P(2-3)=\frac1{6};P(4-6)=\frac1{9}; P(1)=31;P(2−3)=61;P(4−6)=91;
依据以上描述,显然可见: H ( X 1 ) > H ( X 3 ) > H ( X 4 ) > H ( X 2 ) H(X_1)>H(X_3)>H(X_4)>H(X_2) H(X1)>H(X3)>H(X4)>H(X2)
- 可能对3和4有一些疑问,最好的方案就是用一个公式来求得香农熵;显然可见,与每个事件的概率都有关,但不能直接相加,因为相加等于1;
- 概率越高的事件,其信息量对整体熵的贡献越大;概率越低的事件,虽然单次信息量大,但发生的频率低,对整体熵的贡献较小。我们只需要把每个概率所对应的信息量和概率相乘,再求和,即得到平均信息量 ;对于事件i来说,他的对于总体信息量的贡献就是 P ( x i ) ⋅ I ( x i ) P(x_i)\cdot I(x_i) P(xi)⋅I(xi),
- 故对于一个离散随机变量 X X X
H ( X ) = ∑ i = 1 n p ( x i ) ⋅ I ( x i ) = − ∑ i = 1 n p ( x i ) ⋅ log b p ( x i ) H(X) = \sum _{i=1}^{n}p(x_i)\cdot I(x_i)= -\sum _{i=1}^{n}p(x_i)\cdot \log_b{p(x_i)} H(X)=i=1∑np(xi)⋅I(xi)=−i=1∑np(xi)⋅logbp(xi)
其中:
- p ( x i ) p(x_i) p(xi):事件 x i x_i xi发生的概率。
- n n n:所有可能事件的总数。
- b b b:对数的底数,通常取2(单位为比特,bit)、自然对数(单位为奈特,nat)或10(单位为哈特莱,Hartley)。
关键特性:
-
非负性:熵值 H ( X ) ≥ 0 H(X)≥0 H(X)≥0。
-
最大值:当所有事件概率相等时,熵达到最大值 log b n \log_bn logbn。
-
可加性:若两个随机变量独立,则联合熵等于各自熵的和。
香农熵是"平均信息量" -
计算示例2:
H ( X 1 ) = log 2 n = log 2 6 ≈ 2.58 ( b i t ) H ( X 2 ) = − ∑ i = 1 n p ( x i ) ⋅ log b p ( x i ) = p ( x 1 ) ⋅ I ( x 1 ) + 5 × p ( x 2 ) ⋅ I ( x 2 ) = − 1 2 × log 2 1 2 + − 5 × ( 1 10 × log 2 1 10 ) ≈ 0.832 ( b i t ) H ( X 3 ) = p ( x 1 ) ⋅ I ( x 1 ) + 5 × p ( x 2 ) ⋅ I ( x 2 ) = − 1 3 × log 2 1 3 + − 5 × ( 2 15 × log 2 2 15 ) ≈ 2.4662 ( b i t ) H ( X 4 ) = p ( x 1 ) ⋅ I ( x 1 ) + 3 × p ( x 2 ) ⋅ I ( x 2 ) + 2 × p ( x 4 ) ⋅ I ( x 4 ) = − 1 3 × log 2 1 3 − 3 × ( 1 6 × log 2 1 6 ) − 2 × ( 1 9 × log 2 1 9 ) ≈ 2.0944 ( b i t ) \begin{align*} H(X_1)&=\log_2n=\log_26 \\& \approx 2.58(bit)\\ H(X_2)&=-\sum _{i=1}^{n}p(x_i)\cdot \log_b{p(x_i)}\\ &=p(x_1)\cdot I(x_1) + 5\times p(x_2)\cdot I(x_2)\\ &=-\frac12\times \log_2{\frac12} +-5\times(\frac1{10}\times \log_2{\frac1{10}})\\ &\approx 0.832(bit)\\ H(X_3)&=p(x_1)\cdot I(x_1) + 5\times p(x_2)\cdot I(x_2)\\ &=-\frac13\times \log_2{\frac13} +-5\times(\frac2{15}\times \log_2{\frac2{15}})\\ &\approx 2.4662(bit)\\ H(X_4)&=p(x_1)\cdot I(x_1) + 3\times p(x_2)\cdot I(x_2) + 2\times p(x_4)\cdot I(x_4)\\ &=-\frac13\times \log_2{\frac13} -3\times(\frac1{6}\times \log_2{\frac1{6}})-2\times(\frac1{9}\times \log_2{\frac1{9}})\\ &\approx 2.0944(bit) \end{align*} H(X1)H(X2)H(X3)H(X4)=log2n=log26≈2.58(bit)=−i=1∑np(xi)⋅logbp(xi)=p(x1)⋅I(x1)+5×p(x2)⋅I(x2)=−21×log221+−5×(101×log2101)≈0.832(bit)=p(x1)⋅I(x1)+5×p(x2)⋅I(x2)=−31×log231+−5×(152×log2152)≈2.4662(bit)=p(x1)⋅I(x1)+3×p(x2)⋅I(x2)+2×p(x4)⋅I(x4)=−31×log231−3×(61×log261)−2×(91×log291)≈2.0944(bit) -
换句话说,香农熵其实衡量了分布的集中程度,均匀分布熵最大,越集中分布,熵越小;
-
对于连续随机变量
H ( X ) = − ∫ − ∞ ∞ p ( x ) log p ( x ) d x E H(X) = -\int_{-\infty}^{\infty} p(x) \log p(x) \, dx \mathcal E H(X)=−∫−∞∞p(x)logp(x)dxE
排列与组合
排列
- 从 n 个不同元素中取出 m 个元素,按照一定顺序排成一列,出现的可能性个数为排列数。顺序不同即为不同的排列。(英文:Permutation也写作Arrangement)
- 常见记为以下几种写法,都可以:
A ( n , m ) = P ( n , m ) = A n m = P n m A(n,m)=P(n,m)=A^m_n=P^m_n A(n,m)=P(n,m)=Anm=Pnm - 计算公式为:
A n m = n ! ( n − m ) ! A^m_n=\frac{n!}{(n-m)!} Anm=(n−m)!n!
组合
- 从 n 个不同元素中取出 m 个元素,不考虑顺序地组合在一起。
- 记为
C ( n , m ) = C n m C(n,m)=C^m_n C(n,m)=Cnm - 计算公式为,即为排除了重复可能的排列数
C n m = A n m A m m = n ! m ! ( n − m ) ! C^m_n=\frac{A^m_n}{A^m_m}=\frac{n!}{m!(n-m)!} Cnm=AmmAnm=m!(n−m)!n!