八股文·概率论

文章目录

概率论

随机变量 vs 变量

  • 取值不确定的变量叫做随机变量

联合概率

  • 推广到多个随机变量的情况。设有随机变量:

X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn

离散型随机变量:单点有效

如果 (X_1,X_2,\cdots,X_n) 都是离散型随机变量,那么它们的概率质量函数pmf为:

P ( X 1 = x 1 , X 2 = x 2 , ⋯   , X n = x n ) P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n) P(X1=x1,X2=x2,⋯,Xn=xn)

也可以简写为:

P ( x 1 , x 2 , ⋯   , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,⋯,xn)

连续型随机变量:区域面积有效

如果 (X_1,X_2,\cdots,X_n) 是连续型随机变量,通常讨论联合概率密度函数pdf

f ( x 1 , x 2 , ⋯   , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,⋯,xn)

此时,某个区域 (D) 内的联合概率为:

P ( ( X 1 , ⋯   , X n ) ∈ D ) = ∫ D f ( x 1 , ⋯   , x n ) , d x 1 ⋯ d x n P((X_1,\cdots,X_n)\in D)=\int_D f(x_1,\cdots,x_n),dx_1\cdots dx_n P((X1,⋯,Xn)∈D)=∫Df(x1,⋯,xn),dx1⋯dxn

因此连续型情况下主要看"区间"或"区域"的概率

边缘概率:忽略不感兴趣的变量

  • 边缘概率表示:只关心其中一部分随机变量,忽略其它随机变量。

离散型随机变量

  • 一般地,若有 X 1 , ⋯   , X n X_1,\cdots,X_n X1,⋯,Xn,只保留前 k k k 个变量,则:

P ( x 1 , ⋯   , x k ) = ∑ x k + 1 ⋯ ∑ x n P ( x 1 , ⋯   , x k , x k + 1 , ⋯   , x n ) P(x_1,\cdots,x_k)=\sum_{x_{k+1}}\cdots\sum_{x_n}P(x_1,\cdots,x_k,x_{k+1},\cdots,x_n) P(x1,⋯,xk)=xk+1∑⋯xn∑P(x1,⋯,xk,xk+1,⋯,xn)

这就是离散型变量的边缘化

连续型随机变量

如果 (X,Y,Z) 是连续型随机变量,联合密度为:

f X , Y , Z ( x , y , z ) f_{X,Y,Z}(x,y,z) fX,Y,Z(x,y,z)

那么 (X) 的边缘密度为:

f X ( x ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d y , d z f_X(x)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dy,dz fX(x)=∫−∞+∞∫−∞+∞fX,Y,Z(x,y,z),dy,dz

如果只消去 (Z),保留 (X,Y),则:

f X , Y ( x , y ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d z f_{X,Y}(x,y)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dz fX,Y(x,y)=∫−∞+∞fX,Y,Z(x,y,z),dz

条件概率:在部分变量已知时,另一些变量的概率

  • 条件概率表示:已知某些随机变量的取值后,另一些随机变量取某些值的概率。

离散型随机变量

更一般地,若把变量分成两组:

X = ( X 1 , ⋯   , X k ) , Y = ( Y 1 , ⋯   , Y m ) X=(X_1,\cdots,X_k),\quad Y=(Y_1,\cdots,Y_m) X=(X1,⋯,Xk),Y=(Y1,⋯,Ym)

则:

P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x\mid Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)} P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)

其中:

P ( Y = y ) = ∑ x P ( X = x , Y = y ) P(Y=y)=\sum_x P(X=x,Y=y) P(Y=y)=x∑P(X=x,Y=y)

连续型随机变量

连续型变量中,对应的是条件密度

如果有联合密度:

f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y)

那么条件密度为:

f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)fX,Y(x,y)

其中:

f Y ( y ) = ∫ − ∞ + ∞ f X , Y ( x , y ) , d x f_Y(y)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y),dx fY(y)=∫−∞+∞fX,Y(x,y),dx

如果有三个连续变量 (X,Y,Z),则:

f X ∣ Y , Z ( x ∣ y , z ) = f X , Y , Z ( x , y , z ) f Y , Z ( y , z ) f_{X\mid Y,Z}(x\mid y,z)=\frac{f_{X,Y,Z}(x,y,z)}{f_{Y,Z}(y,z)} fX∣Y,Z(x∣y,z)=fY,Z(y,z)fX,Y,Z(x,y,z)

其中:

f Y , Z ( y , z ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d x f_{Y,Z}(y,z)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dx fY,Z(y,z)=∫−∞+∞fX,Y,Z(x,y,z),dx

条件概率公式:条件 = 联合 / 边缘

概率论的链式法则

一般地,对于 (n) 个随机变量,有链式法则:

P ( X 1 , ⋯   , X n ) = P ( X 1 ∣ X 2 , ⋯   , X n ) P ( X 2 ∣ X 3 , ⋯   , X n ) ⋯ P ( X n − 1 ∣ X n ) P ( X n ) P(X_1,\cdots,X_n)=P(X_1\mid X_2,\cdots,X_n)P(X_2\mid X_3,\cdots,X_n)\cdots P(X_{n-1}\mid X_n)P(X_n) P(X1,⋯,Xn)=P(X1∣X2,⋯,Xn)P(X2∣X3,⋯,Xn)⋯P(Xn−1∣Xn)P(Xn)

也常写成另一种顺序:

P ( X 1 , ⋯   , X n ) = P ( X 1 ) ∏ i = 2 n P ( X i ∣ X 1 , ⋯   , X i − 1 ) P(X_1,\cdots,X_n)=P(X_1)\prod_{i=2}^{n}P(X_i\mid X_1,\cdots,X_{i-1}) P(X1,⋯,Xn)=P(X1)i=2∏nP(Xi∣X1,⋯,Xi−1)

贝叶斯公式

含义1:条件-联合-边缘概率转换公式

P ( X ∣ Y ) = P ( X , Y ) P ( Y ) \begin{align}P(\mathbf{X}\mid\mathbf{Y})=\frac{P(\mathbf{X},\mathbf{Y})}{P(\mathbf{Y})}\end{align} P(X∣Y)=P(Y)P(X,Y)

含义2:先验和后验公式

P ( X = x ∣ Y = y ) = P ( Y = y ∣ X = x ) P ( X = x ) P ( Y = y ) \begin{align} P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y}) =\frac{ P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})P(\mathbf{X}=\mathbf{x}) }{ P(\mathbf{Y}=\mathbf{y}) } \end{align} P(X=x∣Y=y)=P(Y=y)P(Y=y∣X=x)P(X=x)

情景:根据证据纠正信念

  • 先验:我们认为一个人感冒的概率为0.1
  • 似然:在此先验下,我们认为感冒的情况下,观测到咳嗽(证据)的概率为0.8
  • 后验:根据咳嗽可以修复我们对这个人感冒的认识,该人感冒的概率为0.9
先验:对X的原始信念

P ( X = x ) \begin{align}P(\mathbf{X}=\mathbf{x})\end{align} P(X=x)

似然:在先验概率下观察到证据的概率

P ( Y = y ∣ X = x ) \begin{align}P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})\end{align} P(Y=y∣X=x)

后验:对于X信念的修正

P ( X = x ∣ Y = y ) \begin{align}P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y})\end{align} P(X=x∣Y=y)

全概率公式

含义:联合概率转换为边缘概率

  • 注意:X和Y都是向量
    P ( Y = y ) = ∑ x P ( Y = y , X = x ) \begin{align} P(\mathbf{Y}=\mathbf{y}) =\sum_{\mathbf{x}} P(\mathbf{Y}=\mathbf{y},\mathbf{X}=\mathbf{x}) \end{align} P(Y=y)=x∑P(Y=y,X=x)
  • 对多个变量进行积分:
    f Y ( y ) = ∫ f Y ∣ X ( y ∣ x ) f X ( x )   d x \begin{align} f_{\mathbf{Y}}(\mathbf{y}) =\int f_{\mathbf{Y}\mid \mathbf{X}}(\mathbf{y}\mid \mathbf{x})f_{\mathbf{X}}(\mathbf{x}) \,d\mathbf{x} \end{align} fY(y)=∫fY∣X(y∣x)fX(x)dx

概率分布

分布 记号 随机变量含义 分布列 / 密度函数 期望 方差
0-1 分布 / 伯努利分布 b ( 1 , p ) b(1,p) b(1,p) 一次试验是否成功 P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},\ k=0,1 P(X=k)=pk(1−p)1−k, k=0,1 p p p p ( 1 − p ) p(1-p) p(1−p)
二项分布 b ( n , p ) b(n,p) b(n,p) n n n 次独立重复试验中成功的次数 P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k n p np np n p ( 1 − p ) np(1-p) np(1−p)
泊松分布 P ( λ ) P(\lambda) P(λ) 单位时间或单位区域内事件发生的次数 P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ λ \lambda λ λ \lambda λ
超几何分布 h ( n , N , M ) h(n,N,M) h(n,N,M) 不放回抽样中某类物品被抽到的件数 P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kM)(n−kN−M) n M N n\frac{M}{N} nNM n M ( N − M ) ( N − n ) N 2 ( N − 1 ) \frac{nM(N-M)(N-n)}{N^2(N-1)} N2(N−1)nM(N−M)(N−n)
几何分布 G e ( p ) Ge(p) Ge(p) 第一次成功出现时所需的试验次数 P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ P(X=k)=(1-p)^{k-1}p,\ k=1,2,\cdots P(X=k)=(1−p)k−1p, k=1,2,⋯ 1 p \frac{1}{p} p1 1 − p p 2 \frac{1-p}{p^2} p21−p
负二项分布 N b ( r , p ) Nb(r,p) Nb(r,p) 第 r r r 次成功出现时所需的试验次数 P ( X = k ) = ( k − 1 r − 1 ) ( 1 − p ) k − r p r P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r P(X=k)=(r−1k−1)(1−p)k−rpr r p \frac{r}{p} pr r ( 1 − p ) p 2 \frac{r(1-p)}{p^2} p2r(1−p)
均匀分布 U ( a , b ) U(a,b) U(a,b) 在区间 ( a , b ) (a,b) (a,b) 内等可能取值 f ( x ) = 1 b − a , a < x < b f(x)=\frac{1}{b-a},\ a<x<b f(x)=b−a1, a<x<b a + b 2 \frac{a+b}{2} 2a+b ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(b−a)2
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) 大量随机因素共同作用下的连续变量 f ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x)=2π σ1exp{−2σ2(x−μ)2} μ \mu μ σ 2 \sigma^2 σ2
指数分布 E x p ( λ ) Exp(\lambda) Exp(λ) 等待某事件第一次发生所需的时间 f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},\ x\ge 0 f(x)=λe−λx, x≥0 1 λ \frac{1}{\lambda} λ1 1 λ 2 \frac{1}{\lambda^2} λ21

泊松分布的含义: X X X表示一段时间内事件发生的次数

P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ \begin{align}P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots\end{align} P(X=k)=k!λke−λ,k=0,1,2,⋯

  • 随机变量X表示:1h内 公交车到站次数1h事件发生次数
  • λ \lambda λ:1h公交车平均到站次数。
  • 假设平均到站次数为3个电话,那么1h内到站次数为5的概率为:
    P ( X = 5 ) = 3 5 5 ! e − 3 \begin{align}P(X=5)=\frac{3^5}{5!}e^{-3}\end{align} P(X=5)=5!35e−3

指数分布的含义: X X X表示下一次事件的发生时间

X ∼ E x p ( λ ) \begin{align}X\sim Exp(\lambda)\end{align} X∼Exp(λ)

P ( X > x ) = e − λ x \begin{align}P(X>x)=e^{-\lambda x}\end{align} P(X>x)=e−λx

其中 x ≥ 0 x\geq0 x≥0,随机变量X表示:公交车到站的等待事件,排队的等待时间

  • 假设排队的平均等待时间为 1 / λ 1/\lambda 1/λ,那么等待时间不超过15的概率为:
    P ( X < = x ) = 1 − λ e − λ x \begin{align}P(X<=x)=1-\lambda e^{-\lambda x}\end{align} P(X<=x)=1−λe−λx

随机变量和随机向量

x = x 1 x 2 ⋮ x n ∈ R n \begin{align} x= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} \in \mathbb{R}^n \end{align} x= x1x2⋮xn ∈Rn

期望

E x = E \[ x 1 E x 2 ⋮ E x n ] \begin{align} \mathbb{E}x= \begin{bmatrix} \mathbb{E}x_1\\ \mathbb{E}x_2\\ \vdots\\ \mathbb{E}x_n \end{bmatrix} \end{align} Ex= Ex1Ex2⋮Exn

随机变量的方差和协方差

概念 公式 维度 含义
随机向量期望 (\mathbb{E}x) (n\times 1) 随机向量的平均位置
自协方差矩阵 (\mathrm{Cov}(x,x)) (n\times n) 描述 (x) 内部分量之间的波动和相关关系
交叉协方差矩阵 (\mathrm{Cov}(x,y)) (m\times n) 描述 (x) 的分量与 (y) 的分量之间的交叉关系
对角线元素 (\mathrm{Cov}(x_i,x_i)) 标量 第 (i) 个变量自己的方差
非对角线元素 (\mathrm{Cov}(x_i,x_j)) 标量 两个变量之间的协方差

V a r ( x ) = E ( x − E \[ x ) 2 ] \begin{align} \mathrm{Var}(x)=\mathbb{E}\left(x-\\mathbb{E}\[x)^2\right] \end{align} Var(x)=E(x−E\[x)2]

随机向量的方差和协方差:随机向量之间不同分量组合的相关程度

  • 元素表示每一个随机变量之间的关联程度 / 波动程度
  • 注意:协方差矩阵为nxn 的,所以是列向量乘以行向量
    C o v ( x , x ) = E ( x − E \[ x ) ( x − E x ) T ] \begin{align} \mathrm{Cov}(x,x)= \mathbb{E}\left(x-\\mathbb{E}\[x)(x-\mathbb{E}x)^T\right] \end{align} Cov(x,x)=E(x−E\[x)(x−Ex)T]

C o v ( x , x ) = C o v ( x 1 , x 1 ) C o v ( x 1 , x 2 ) ⋯ C o v ( x 1 , x n ) C o v ( x 2 , x 1 ) C o v ( x 2 , x 2 ) ⋯ C o v ( x 2 , x n ) ⋮ ⋮ ⋱ ⋮ C o v ( x n , x 1 ) C o v ( x n , x 2 ) ⋯ C o v ( x n , x n ) \begin{align} \mathrm{Cov}(x,x) =\begin{bmatrix} \mathrm{Cov}(x_1,x_1) & \mathrm{Cov}(x_1,x_2) & \cdots & \mathrm{Cov}(x_1,x_n)\\ \mathrm{Cov}(x_2,x_1) & \mathrm{Cov}(x_2,x_2) & \cdots & \mathrm{Cov}(x_2,x_n)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(x_n,x_1) & \mathrm{Cov}(x_n,x_2) & \cdots & \mathrm{Cov}(x_n,x_n) \end{bmatrix} \end{align} Cov(x,x)= Cov(x1,x1)Cov(x2,x1)⋮Cov(xn,x1)Cov(x1,x2)Cov(x2,x2)⋮Cov(xn,x2)⋯⋯⋱⋯Cov(x1,xn)Cov(x2,xn)⋮Cov(xn,xn)

不同随机向量的协方差矩阵:

C o v ( x , y ) = E ( x − E \[ x ) ( y − E y ) T ] \begin{align} \mathrm{Cov}(x,y) =\mathbb{E}\left(x-\\mathbb{E}\[x)(y-\mathbb{E}y)^T\right] \end{align} Cov(x,y)=E(x−E\[x)(y−Ey)T]

协方差矩阵 Σ x \Sigma_x Σx:随机变量不同分量的波动程度和相关性

  • 不同分量:例如身高,体重的相关程度和波动。

Σ x = C o v ( x ) = C o v ( x , x ) \begin{align} \Sigma_x =\mathrm{Cov}(x)= \mathrm{Cov}(x,x) \end{align} Σx=Cov(x)=Cov(x,x)

期望和方差/协方差的性质:多个随机变量 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn线性组合

期望的线性组合性质:无条件

E A x + B y + c = A E x + B E y + c \begin{align} \mathbb{E}Ax+By+c =A\mathbb{E}x+B\mathbb{E}y+c \end{align} EAx+By+c=AEx+BEy+c

协方差的线性组合性质:通用独立版本

设随机向量 (x_1,\dots,x_m) 与 (y_1,\dots,y_n) 二阶矩存在,(A_i,B_j) 是确定矩阵,(a,b) 是确定向量:

u = ∑ i = 1 m A i x i + a , v = ∑ j = 1 n B j y j + b \begin{align} u=\sum_{i=1}^{m}A_i x_i+a, \quad v=\sum_{j=1}^{n}B_j y_j+b \end{align} u=i=1∑mAixi+a,v=j=1∑nBjyj+b

则:

C o v ( u , v ) = ∑ i = 1 m ∑ j = 1 n A i C o v ( x i , y j ) B j T \begin{align} \mathrm{Cov}(u,v) =\sum_{i=1}^{m}\sum_{j=1}^{n} A_i\mathrm{Cov}(x_i,y_j)B_j^T \end{align} Cov(u,v)=i=1∑mj=1∑nAiCov(xi,yj)BjT

这就是协方差矩阵在线性组合下的通用公式

独立与相关

  • X和Y相互独立的定义
    X ⊥  ⁣ ⁣ ⁣ ⊥ Y \begin{align} \mathbf{X} \perp\!\!\!\perp \mathbf{Y} \end{align} X⊥⊥Y

标准定义

  • 与变量Y无关
    P ( X ∣ Y ) = P ( X ) \begin{align} P(X|Y)=P(X) \end{align} P(X∣Y)=P(X)

推论

P ( X ) P ( Y ) = P ( X , Y ) \begin{align} P(X)P(Y)=P(X,Y) \end{align} P(X)P(Y)=P(X,Y)

独立vs相关:独立必不相关,线性相关不一定独立

数理统计

`