文章目录
随机变量是什么
随机变量是什么?如果你翻开概率论的书,那么你大概率会看到:
定义: 随机变量是定义在概率空间 ( Ω , F , P ) (\Omega,\mathcal{F} ,P) (Ω,F,P) 上的一个实函数 X : Ω → R X:\Omega\rightarrow \mathbb{R} X:Ω→R,它必须满足可测性条件:对于任意的 x ∈ R x\in \mathbb{R} x∈R,集合 ω ∈ Ω ∣ X ( ω ) ≤ x ∈ F \omega \in \Omega\mid X(\omega )\leq x\in \mathcal{F} ω∈Ω∣X(ω)≤x∈F。对于 R \mathbb{R} R 上的任意Borel可测集 S ⊆ R S\subseteq \mathbb{R} S⊆R,其原像 X − 1 ( S ) = { ω ∈ Ω ∣ X ( ω ) ∈ S } X^{-1} (S)=\{\omega \in \Omega\mid X(\omega )\in S\} X−1(S)={ω∈Ω∣X(ω)∈S}都属于 F \mathcal{F} F,即它是一个事件。
看到这里可能你会充满迷惑:
怎么随机变量是一个函数?
你怎么会说一个变量是一个函数??
一个函数又是怎么服从某个分布的???
最后,中心极限定理里面随机变量的求和然后服从高斯分布是什么情况????
关于第一个问题"随机变量"(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量(比如 x = 5 x=5 x=5 里的 x x x),它是一个函数 (Function)。
它到底在干什么?一句话总结:它是一个"翻译官"或"测量工具"。
它的工作是把现实世界中乱七八糟的、非数字的"随机结果 ω \omega ω","翻译"成一个我们可以做数学计算的"实数 x x x"。
我们可以用售货机来类比:设 Ω \Omega Ω (样本空间),存在以下"样本"
- ω 1 = \omega _{1} = ω1= "启动可乐轨道"
- ω 2 = \omega _{2} = ω2= "启动雪碧轨道"
- ω 3 = \omega _{3} = ω3= "启动矿泉水轨道"
于是我们可以设 P P P (概率测度): 为按某个按钮的概率。
- P ( ω 1 ) = 50 % P(\omega _{1} )=50\% P(ω1)=50%, P ( ω 2 ) = 30 % P(\omega _{2} )=30\% P(ω2)=30%, P ( ω 3 ) = 20 % P(\omega _{3} )=20\% P(ω3)=20%
于是** X X X (随机变量/函数): ** 就是这台机器的**"定价系统"**,是一个函数:
- X ( ω 1 ) = 3.0 X(\omega _{1} )=3.0 X(ω1)=3.0
- X ( ω 2 ) = 3.0 X(\omega _{2} )=3.0 X(ω2)=3.0
- X ( ω 3 ) = 2.0 X(\omega _{3} )=2.0 X(ω3)=2.0
我们(作为用户)从不关心机器内部是 ω 1 \omega _{1} ω1 还是 ω 2 \omega _{2} ω2 被触发了。我们只关心我们最终观测 到的那个输出值。
我们问 P ( X = 3.0 ) P(X=3.0) P(X=3.0),这其实是简写,它的全称是:
P ( { ω ∈ Ω ∣ X ( ω ) = 3.0 } ) = P ( { ω 1 , ω 2 } ) = 50 % + 30 % = 80 % P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\% P({ω∈Ω∣X(ω)=3.0})=P({ω1,ω2})=50%+30%=80%
所以它是一个执行 ω → x \omega \rightarrow x ω→x 的映射函数。而它被称为变量,是因为我们只关心它的输出值 x x x。
分布是什么?
在说分布是什么之前,先考虑一个问题,既然随机变量是个函数,那么如果我们说两个随机变量是同分布,那么他们的函数是不是就是相等的呢?
你可能会觉得是,但实际上"同分布" 并不一定 "函数相等"。
我们之所以觉得是,我们或许可以考虑抛硬币的例子:
场景:只抛一次硬币样本空间
- Ω: {正面, 反面}
- 概率 P: P(正面) = 1/2, P(反面) = 1/2
此时我们定义随机变量 X:
X(正面) = 1
X(反面) = 0
定义随机变量 Y:
如果我们想让 Y 也代表这次抛掷的结果,那么唯一的可能就是:
Y(正面) = 1
Y(反面) = 0
所以从这个角度来讲,他们就是相等的。
那函数不是很正确吗,然而当我们在讨论同分布的时候,我们往往讨论的东西是,他们的求和,他们的联合分布,也就是多次抛硬币的场景,那么此时,我们往往研究的对象是,比如连续抛两次,出现正面的次数:
S = X 1 + X 2 S=X_{1} +X_{2} S=X1+X2
此时,S也是一个函数,满足:
S ( ω ) = X 1 ( ω ) + X 2 ( ω ) S( \omega ) =X_{1}( \omega ) +X_{2}( \omega ) S(ω)=X1(ω)+X2(ω)
这时候他们就不再是相同的函数了。
为什么?
首先, X \displaystyle X X, Y \displaystyle Y Y模型非常完美,但它只能描述一次抛掷 。在这个世界里,只存在一次抛掷,只存在一个结果,也只存在一个随机变量 X,而无法定义我们这个新的随机变量S。
当我们说"连续抛两次"时,这已经超出了这个旧模型的描述能力。旧模型里根本没有"第一次"、"第二次"的概念。
为了描述"连续抛两次"这个新的物理现象,我们必须构建一个新的样本空间,才能够正确定义我们这个新的随机变量S的函数:
- 新样本空间 Ω 新 \displaystyle \Omega _{新} Ω新 : Ω 旧 × Ω 旧 = { ω 1 = ( H , H ) , ω 2 = ( H , T ) , ω 3 = ( T , H ) , ω 4 = ( T , T ) } \displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\} Ω旧×Ω旧 = {ω1=(H,H), ω2=(H,T),ω3=(T,H),ω4=(T,T)}
这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点 Ω 新 \displaystyle \Omega _{新} Ω新 代表一个完整的、有序的两次抛掷实验的结果。
为了适应这个新场景
我们需要重新定义随机变量:
-
新随机变量 X₁ : Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} Ω新→R
-
定义规则 :忽略第二个分量,将第一个分量代入旧的
X函数。 -
X 1 ( s 1 , s 2 ) = X ( s 1 ) \displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1}) X1(s1, s2) = X(s1) //注意,这里的
X是旧的那个函数 -
新随机变量 X₂ : Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} Ω新→R
-
定义规则 :忽略第一个分量,将第二个分量代入旧的
X函数。 -
X 2 ( s 1 , s 2 ) = X ( s 2 ) \displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2}) X2(s1, s2) = X(s2) //注意,这里的
X是旧的那个函数
这才是连续抛两次硬币的随机变量的定义。
所以这时候你就会发现,这两个函数式不一样的!
例如取 ω 2 = ( H , T ) \omega _{2} =(H,T) ω2=(H,T),那么
* X 1 ( ω 2 ) = 1 X_{1} (\omega _{2} )=1 X1(ω2)=1 (因为第一次是 H)
* X 2 ( ω 2 ) = 0 X_{2} (\omega _{2} )=0 X2(ω2)=0 (因为第二次是 T)
* X 1 ( ω 2 ) ≠ X 2 ( ω 2 ) X_{1} (\omega {2} )\neq X{2} (\omega {2} ) X1(ω2)=X2(ω2)。所以 X 1 X{1} X1 和 X 2 X_{2} X2 是两个不同的函数。
那它们同分布吗?是的,因为,
- P ( X 1 = 1 ) = P ( { ω 1 , ω 2 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2 P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2
- P ( X 1 = 0 ) = P ( { ω 3 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2 P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2
- X 1 X_{1} X1 的分布是 {50% 概率 1, 50% 概率 0}。
而 - P ( X 2 = 1 ) = P ( { ω 1 , ω 3 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2 P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2
- P ( X 2 = 0 ) = P ( { ω 2 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2 P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2
- X 2 X_{2} X2 的分布也是 {50% 概率 1, 50% 概率 0}。
所以,他们是不同的函数,却拥有相同的分布,最重要的是,在这里例子中,他们每个函数只看自己的维度 ,此时我们就发现了独立性!
怎么理解中心极限定理?
我们将上面的例子进一步推广,那么中心极限定理就是研究这个新函数 :
S n = X 1 + X 2 + ... + X n S_{n} =X_{1} +X_{2} +\dotsc +X_{n} Sn=X1+X2+...+Xn
那么函数 S n S_{n} Sn 要如何产生高斯分布?
首先,根据我们上面的定义,它也是一个函数:
S n ( ω ) = X 1 ( ω ) + X 2 ( ω ) + ... + X n ( ω ) S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega ) Sn(ω)=X1(ω)+X2(ω)+...+Xn(ω)
在我们扔 n n n 次硬币的例子中:
S n ( ω ) S_{n} (\omega ) Sn(ω) = X 1 X_{1} X1 (看第1维) + ... + X n X_{n} Xn (看第n维) = ω \omega ω 序列中 H 的总个数。
我们问:为什么 S n S_{n} Sn 这个函数(数H的个数)的"输出值"会服从高斯分布?
那么这个问题的设定是:
-
高维样本点 ω \omega ω: 一个 n n n 维的向量,例如 ω = ( H , T , H , H , ... , T ) \omega =(H,T,H,H,\dotsc ,T) ω=(H,T,H,H,...,T)。
-
n n n 个独立函数 X i X_{i} Xi: X i X_{i} Xi 是一个"投影"函数,它只看 ω \omega ω 的第 i i i 个维度。
- X 1 ( ω ) = X 1 ( H , T , ... ) = H → 1 X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1 X1(ω)=X1(H,T,...)=H→1
- X 2 ( ω ) = X 2 ( H , T , ... ) = T → 0 X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0 X2(ω)=X2(H,T,...)=T→0
- X 3 ( ω ) = X 3 ( H , T , ... ) = H → 1 X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1 X3(ω)=X3(H,T,...)=H→1
- ...
-
求和函数 S n S_{n} Sn:
S n ( ω ) = ∑ i = 1 n X i ( ω ) S_{n} (\omega )=\sum {i=1}^{n} X{i} (\omega ) Sn(ω)=i=1∑nXi(ω)
在这个例子中, S n ( ω ) S_{n} (\omega ) Sn(ω) 就是简单地"计算 ω \omega ω 序列中 H 的总个数"。
因此,我们的问题是:
为什么 S n S_{n} Sn 这个函数("数H的个数")的输出值的分布会是高斯分布?
那么分布其实就是看 S n S_{n} Sn 在映射时,哪个输出点"更拥挤",我们来数一数:
-
S n S_{n} Sn 输出 k = n k=n k=n (极端值):
S n ( ω ) = n S_{n} (\omega )=n Sn(ω)=n 意味着"H的个数为n"。在 2 n 2^{n} 2n 个 ω \omega ω 中,有几个满足?
只有 1 个: ω = ( H , H , ... , H ) \omega =(H,H,\dotsc ,H) ω=(H,H,...,H)。
这需要 n n n 个 X i X_{i} Xi 同时为1
-
S n S_{n} Sn 输出 k = 0 k=0 k=0 (极端值):
S n ( ω ) = 0 S_{n} (\omega )=0 Sn(ω)=0 意味着"H的个数为0"。只有 1 个: ω = ( T , T , ... , T ) \omega =(T,T,\dotsc ,T) ω=(T,T,...,T)。
-
S n S_{n} Sn 输出 k = n / 2 k=n/2 k=n/2 (中间值):
S n ( ω ) = n / 2 S_{n} (\omega )=n/2 Sn(ω)=n/2 意味着"H的个数为 n / 2 n/2 n/2"。有多少个 ω \omega ω 满足?
这等于"从 n n n 个位置中选 n / 2 n/2 n/2 个位置放 H"。
数量是 C ( n , n / 2 ) C(n,n/2) C(n,n/2) (组合数)。
这,就是高斯分布。
高斯分布(钟形曲线)的形状,就是 C ( n , k ) C(n,k) C(n,k) 这个组合数函数 k k k 的形状 ,也就是二项分布 B ( n , p ) B(n,p) B(n,p) 在 n n n 很大时的极限)。
因此,直觉上CLT之所以成立,就是因为落在中间的位置的可能性更多,而两边少。
而这个直觉是可以推广到任意独立同分布的情况,而这就是中心极限定理了。