为什么“随机变量”是个函数?为什么“函数相加”会产生高斯分布?

文章目录

随机变量是什么

随机变量是什么?如果你翻开概率论的书,那么你大概率会看到:

定义: 随机变量是定义在概率空间 ( Ω , F , P ) (\Omega,\mathcal{F} ,P) (Ω,F,P) 上的一个实函数 X : Ω → R X:\Omega\rightarrow \mathbb{R} X:Ω→R,它必须满足可测性条件:对于任意的 x ∈ R x\in \mathbb{R} x∈R,集合 ω ∈ Ω ∣ X ( ω ) ≤ x ∈ F \omega \in \Omega\mid X(\omega )\leq x\in \mathcal{F} ω∈Ω∣X(ω)≤x∈F。对于 R \mathbb{R} R 上的任意Borel可测集 S ⊆ R S\subseteq \mathbb{R} S⊆R,其原像 X − 1 ( S ) = { ω ∈ Ω ∣ X ( ω ) ∈ S } X^{-1} (S)=\{\omega \in \Omega\mid X(\omega )\in S\} X−1(S)={ω∈Ω∣X(ω)∈S}都属于 F \mathcal{F} F,即它是一个事件。

看到这里可能你会充满迷惑:

怎么随机变量是一个函数?

你怎么会说一个变量是一个函数??

一个函数又是怎么服从某个分布的???

最后,中心极限定理里面随机变量的求和然后服从高斯分布是什么情况????

关于第一个问题"随机变量"(Random Variable) 是一个历史遗留的的术语。它不是我们通常理解的变量(比如 x = 5 x=5 x=5 里的 x x x),它是一个函数 (Function)。

它到底在干什么?一句话总结:它是一个"翻译官"或"测量工具"。

它的工作是把现实世界中乱七八糟的、非数字的"随机结果 ω \omega ω","翻译"成一个我们可以做数学计算的"实数 x x x"。

我们可以用售货机来类比:设 Ω \Omega Ω (样本空间),存在以下"样本"

  • ω 1 = \omega _{1} = ω1= "启动可乐轨道"
  • ω 2 = \omega _{2} = ω2= "启动雪碧轨道"
  • ω 3 = \omega _{3} = ω3= "启动矿泉水轨道"

于是我们可以设 P P P (概率测度): 为按某个按钮的概率。

  • P ( ω 1 ) = 50 % P(\omega _{1} )=50\% P(ω1)=50%, P ( ω 2 ) = 30 % P(\omega _{2} )=30\% P(ω2)=30%, P ( ω 3 ) = 20 % P(\omega _{3} )=20\% P(ω3)=20%

于是** X X X (随机变量/函数): ** 就是这台机器的**"定价系统"**,是一个函数:

  • X ( ω 1 ) = 3.0 X(\omega _{1} )=3.0 X(ω1)=3.0
  • X ( ω 2 ) = 3.0 X(\omega _{2} )=3.0 X(ω2)=3.0
  • X ( ω 3 ) = 2.0 X(\omega _{3} )=2.0 X(ω3)=2.0

我们(作为用户)从不关心机器内部是 ω 1 \omega _{1} ω1 还是 ω 2 \omega _{2} ω2 被触发了。我们只关心我们最终观测 到的那个输出值

我们问 P ( X = 3.0 ) P(X=3.0) P(X=3.0),这其实是简写,它的全称是:
P ( { ω ∈ Ω ∣ X ( ω ) = 3.0 } ) = P ( { ω 1 , ω 2 } ) = 50 % + 30 % = 80 % P(\{\omega \in \Omega\mid X(\omega )=3.0\})=P(\{\omega _{1} ,\omega _{2} \})=50\%+30\%=80\% P({ω∈Ω∣X(ω)=3.0})=P({ω1,ω2})=50%+30%=80%

所以它是一个执行 ω → x \omega \rightarrow x ω→x 的映射函数。而它被称为变量,是因为我们只关心它的输出值 x x x

分布是什么?

在说分布是什么之前,先考虑一个问题,既然随机变量是个函数,那么如果我们说两个随机变量是同分布,那么他们的函数是不是就是相等的呢?

你可能会觉得是,但实际上"同分布" 并不一定 "函数相等"。

我们之所以觉得是,我们或许可以考虑抛硬币的例子:

场景:只抛一次硬币样本空间

  • Ω: {正面, 反面}
  • 概率 P: P(正面) = 1/2, P(反面) = 1/2

此时我们定义随机变量 X:

X(正面) = 1

X(反面) = 0

定义随机变量 Y:

如果我们想让 Y 也代表这次抛掷的结果,那么唯一的可能就是:

Y(正面) = 1

Y(反面) = 0

所以从这个角度来讲,他们就是相等的。

那函数不是很正确吗,然而当我们在讨论同分布的时候,我们往往讨论的东西是,他们的求和,他们的联合分布,也就是多次抛硬币的场景,那么此时,我们往往研究的对象是,比如连续抛两次,出现正面的次数:
S = X 1 + X 2 S=X_{1} +X_{2} S=X1+X2

此时,S也是一个函数,满足:
S ( ω ) = X 1 ( ω ) + X 2 ( ω ) S( \omega ) =X_{1}( \omega ) +X_{2}( \omega ) S(ω)=X1(ω)+X2(ω)

这时候他们就不再是相同的函数了。

为什么?

首先, X \displaystyle X X, Y \displaystyle Y Y模型非常完美,但它只能描述一次抛掷 。在这个世界里,只存在一次抛掷,只存在一个结果,也只存在一个随机变量 X,而无法定义我们这个新的随机变量S。

当我们说"连续抛两次"时,这已经超出了这个旧模型的描述能力。旧模型里根本没有"第一次"、"第二次"的概念。

为了描述"连续抛两次"这个新的物理现象,我们必须构建一个新的样本空间,才能够正确定义我们这个新的随机变量S的函数:

  • 新样本空间 Ω 新 \displaystyle \Omega _{新} Ω新 : Ω 旧 × Ω 旧 = { ω 1 = ( H , H ) , ω 2 = ( H , T ) , ω 3 = ( T , H ) , ω 4 = ( T , T ) } \displaystyle \Omega _{旧} \times \Omega _{旧} \ =\ \{\omega _{1} =(H,H),\ \omega _{2} =(H,T),\omega _{3} =(T,H),\omega _{4} =(T,T)\} Ω旧×Ω旧 = {ω1=(H,H), ω2=(H,T),ω3=(T,H),ω4=(T,T)}

这是一个全新的、与旧样本空间不同的数学对象。 它的每一个点 Ω 新 \displaystyle \Omega _{新} Ω新 代表一个完整的、有序的两次抛掷实验的结果。

为了适应这个新场景

我们需要重新定义随机变量:

  • 新随机变量 X₁ : Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} Ω新→R

  • 定义规则 :忽略第二个分量,将第一个分量代入旧的 X 函数。

  • X 1 ( s 1 , s 2 ) = X ( s 1 ) \displaystyle X_{1}( s_{1} ,\ s_{2}) \ =\ X( s_{1}) X1(s1, s2) = X(s1) //注意,这里的 X 是旧的那个函数

  • 新随机变量 X₂ : Ω 新 → R \displaystyle \Omega_{新}\rightarrow \mathbb{R} Ω新→R

  • 定义规则 :忽略第一个分量,将第二个分量代入旧的 X 函数。

  • X 2 ( s 1 , s 2 ) = X ( s 2 ) \displaystyle X_{2}( s_{1} ,\ s_{2}) \ =\ X( s_{2}) X2(s1, s2) = X(s2) //注意,这里的 X 是旧的那个函数

这才是连续抛两次硬币的随机变量的定义。

所以这时候你就会发现,这两个函数式不一样的!

例如取 ω 2 = ( H , T ) \omega _{2} =(H,T) ω2=(H,T),那么

* X 1 ( ω 2 ) = 1 X_{1} (\omega _{2} )=1 X1(ω2)=1 (因为第一次是 H)

* X 2 ( ω 2 ) = 0 X_{2} (\omega _{2} )=0 X2(ω2)=0 (因为第二次是 T)

* X 1 ( ω 2 ) ≠ X 2 ( ω 2 ) X_{1} (\omega {2} )\neq X{2} (\omega {2} ) X1(ω2)=X2(ω2)。所以 X 1 X{1} X1 和 X 2 X_{2} X2 是两个不同的函数。

那它们同分布吗?是的,因为,

  • P ( X 1 = 1 ) = P ( { ω 1 , ω 2 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =1)=P(\{\omega _{1} ,\omega _{2} \})=1/4+1/4=1/2 P(X1=1)=P({ω1,ω2})=1/4+1/4=1/2
  • P ( X 1 = 0 ) = P ( { ω 3 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{1} =0)=P(\{\omega _{3} ,\omega _{4} \})=1/4+1/4=1/2 P(X1=0)=P({ω3,ω4})=1/4+1/4=1/2
  • X 1 X_{1} X1 的分布是 {50% 概率 1, 50% 概率 0}。
  • P ( X 2 = 1 ) = P ( { ω 1 , ω 3 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =1)=P(\{\omega _{1} ,\omega _{3} \})=1/4+1/4=1/2 P(X2=1)=P({ω1,ω3})=1/4+1/4=1/2
  • P ( X 2 = 0 ) = P ( { ω 2 , ω 4 } ) = 1 / 4 + 1 / 4 = 1 / 2 P(X_{2} =0)=P(\{\omega _{2} ,\omega _{4} \})=1/4+1/4=1/2 P(X2=0)=P({ω2,ω4})=1/4+1/4=1/2
  • X 2 X_{2} X2 的分布也是 {50% 概率 1, 50% 概率 0}。

所以,他们是不同的函数,却拥有相同的分布,最重要的是,在这里例子中,他们每个函数只看自己的维度 ,此时我们就发现了独立性

怎么理解中心极限定理?

我们将上面的例子进一步推广,那么中心极限定理就是研究这个新函数
S n = X 1 + X 2 + ... + X n S_{n} =X_{1} +X_{2} +\dotsc +X_{n} Sn=X1+X2+...+Xn

那么函数 S n S_{n} Sn 要如何产生高斯分布?

首先,根据我们上面的定义,它也是一个函数:
S n ( ω ) = X 1 ( ω ) + X 2 ( ω ) + ... + X n ( ω ) S_{n} (\omega )=X_{1} (\omega )+X_{2} (\omega )+\dotsc +X_{n} (\omega ) Sn(ω)=X1(ω)+X2(ω)+...+Xn(ω)

在我们扔 n n n 次硬币的例子中:
S n ( ω ) S_{n} (\omega ) Sn(ω) = X 1 X_{1} X1 (看第1维) + ... + X n X_{n} Xn (看第n维) = ω \omega ω 序列中 H 的总个数

我们问:为什么 S n S_{n} Sn 这个函数(数H的个数)的"输出值"会服从高斯分布?

那么这个问题的设定是:

  1. 高维样本点 ω \omega ω: 一个 n n n 维的向量,例如 ω = ( H , T , H , H , ... , T ) \omega =(H,T,H,H,\dotsc ,T) ω=(H,T,H,H,...,T)。

  2. n n n 个独立函数 X i X_{i} Xi: X i X_{i} Xi 是一个"投影"函数,它只看 ω \omega ω 的第 i i i 个维度。

    • X 1 ( ω ) = X 1 ( H , T , ...   ) = H → 1 X_{1} (\omega )=X_{1} (H,T,\dotsc )=H\rightarrow 1 X1(ω)=X1(H,T,...)=H→1
    • X 2 ( ω ) = X 2 ( H , T , ...   ) = T → 0 X_{2} (\omega )=X_{2} (H,T,\dotsc )=T\rightarrow 0 X2(ω)=X2(H,T,...)=T→0
    • X 3 ( ω ) = X 3 ( H , T , ...   ) = H → 1 X_{3} (\omega )=X_{3} (H,T,\dotsc )=H\rightarrow 1 X3(ω)=X3(H,T,...)=H→1
    • ...
  3. 求和函数 S n S_{n} Sn:

S n ( ω ) = ∑ i = 1 n X i ( ω ) S_{n} (\omega )=\sum {i=1}^{n} X{i} (\omega ) Sn(ω)=i=1∑nXi(ω)

在这个例子中, S n ( ω ) S_{n} (\omega ) Sn(ω) 就是简单地"计算 ω \omega ω 序列中 H 的总个数"

因此,我们的问题是:

为什么 S n S_{n} Sn 这个函数("数H的个数")的输出值的分布会是高斯分布?

那么分布其实就是看 S n S_{n} Sn 在映射时,哪个输出点"更拥挤",我们来数一数:

  • S n S_{n} Sn 输出 k = n k=n k=n (极端值):
    S n ( ω ) = n S_{n} (\omega )=n Sn(ω)=n 意味着"H的个数为n"。

    在 2 n 2^{n} 2n 个 ω \omega ω 中,有几个满足?

    只有 1 个: ω = ( H , H , ... , H ) \omega =(H,H,\dotsc ,H) ω=(H,H,...,H)。

    这需要 n n n 个 X i X_{i} Xi 同时为1

  • S n S_{n} Sn 输出 k = 0 k=0 k=0 (极端值):
    S n ( ω ) = 0 S_{n} (\omega )=0 Sn(ω)=0 意味着"H的个数为0"。

    只有 1 个: ω = ( T , T , ... , T ) \omega =(T,T,\dotsc ,T) ω=(T,T,...,T)。

  • S n S_{n} Sn 输出 k = n / 2 k=n/2 k=n/2 (中间值):
    S n ( ω ) = n / 2 S_{n} (\omega )=n/2 Sn(ω)=n/2 意味着"H的个数为 n / 2 n/2 n/2"。

    有多少个 ω \omega ω 满足?

    这等于"从 n n n 个位置中选 n / 2 n/2 n/2 个位置放 H"。

    数量是 C ( n , n / 2 ) C(n,n/2) C(n,n/2) (组合数)。

这,就是高斯分布。

高斯分布(钟形曲线)的形状,就是 C ( n , k ) C(n,k) C(n,k) 这个组合数函数 k k k 的形状 ,也就是二项分布 B ( n , p ) B(n,p) B(n,p) 在 n n n 很大时的极限)。

因此,直觉上CLT之所以成立,就是因为落在中间的位置的可能性更多,而两边少。

而这个直觉是可以推广到任意独立同分布的情况,而这就是中心极限定理了。

相关推荐
jz_ddk3 天前
[数学基础] 瑞利分布:数学原理、物理意义及Python实验
开发语言·python·数学·概率论·信号分析
点云SLAM4 天前
方差的迭代计算公式
大数据·深度学习·数据分析·概率论·数学原理·概论率
phoenix@Capricornus5 天前
多项分布 (Multinomial Distribution)
线性代数·机器学习·概率论
蒙奇D索大6 天前
【11408学习记录】考研数学核心考点精讲:二维随机变量(离散与连续)全面解析
笔记·学习·考研·概率论·改行学it
luoganttcc8 天前
柯尔莫哥洛夫对概率论的公理化体系有哪些贡献?
概率论
望十五江洋9 天前
泊松分布的参数可加性
线性代数·机器学习·概率论
lybugproducer10 天前
深度学习专题:模型训练的数据并行(三)
人工智能·深度学习·概率论
Small___ming11 天前
【人工智能数学基础】多元高斯分布
人工智能·机器学习·概率论
RE-190113 天前
《深入浅出统计学》学习笔记(二)
大数据·数学·概率论·统计学·数理统计·知识笔记·深入浅出