文章目录
- 概率论
-
- [随机变量 vs 变量](#随机变量 vs 变量)
- 联合概率
- 边缘概率:忽略不感兴趣的变量
- 条件概率:在部分变量已知时,另一些变量的概率
- [条件概率公式:条件 = 联合 / 边缘](#条件概率公式:条件 = 联合 / 边缘)
- 概率论的链式法则
- 贝叶斯公式
- 全概率公式
- 概率分布
-
- [泊松分布的含义: X X X表示一段时间内`事件发生的次数`](#泊松分布的含义: X X X表示一段时间内
事件发生的次数) - [指数分布的含义: X X X表示下一次事件的发生时间](#指数分布的含义: X X X表示下一次事件的发生时间)
- [泊松分布的含义: X X X表示一段时间内`事件发生的次数`](#泊松分布的含义: X X X表示一段时间内
- 随机变量和随机向量
-
- 期望
- 随机变量的方差和协方差
- 随机向量的方差和协方差:`随机向量`之间`不同分量组合`的相关程度
- [协方差矩阵 Σ x \Sigma_x Σx:随机变量`不同分量`的波动程度和相关性](#协方差矩阵 Σ x \Sigma_x Σx:随机变量
不同分量的波动程度和相关性) - [期望和方差/协方差的性质:多个随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn`线性组合`](#期望和方差/协方差的性质:多个随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn
线性组合) - 协方差的线性组合性质:`通用`和`独立`版本
- 独立与相关
- 数理统计
概率论
随机变量 vs 变量
- 取值不确定的变量叫做随机变量
联合概率
- 推广到多个随机变量的情况。设有随机变量:
X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn
离散型随机变量:单点有效
如果 (X_1,X_2,\cdots,X_n) 都是离散型随机变量,那么它们的概率质量函数pmf为:
P ( X 1 = x 1 , X 2 = x 2 , ⋯ , X n = x n ) P(X_1=x_1,X_2=x_2,\cdots,X_n=x_n) P(X1=x1,X2=x2,⋯,Xn=xn)
也可以简写为:
P ( x 1 , x 2 , ⋯ , x n ) P(x_1,x_2,\cdots,x_n) P(x1,x2,⋯,xn)
连续型随机变量:区域面积有效
如果 (X_1,X_2,\cdots,X_n) 是连续型随机变量,通常讨论联合概率密度函数pdf:
f ( x 1 , x 2 , ⋯ , x n ) f(x_1,x_2,\cdots,x_n) f(x1,x2,⋯,xn)
此时,某个区域 (D) 内的联合概率为:
P ( ( X 1 , ⋯ , X n ) ∈ D ) = ∫ D f ( x 1 , ⋯ , x n ) , d x 1 ⋯ d x n P((X_1,\cdots,X_n)\in D)=\int_D f(x_1,\cdots,x_n),dx_1\cdots dx_n P((X1,⋯,Xn)∈D)=∫Df(x1,⋯,xn),dx1⋯dxn
因此连续型情况下主要看"区间"或"区域"的概率。
边缘概率:忽略不感兴趣的变量
- 边缘概率表示:只关心其中一部分随机变量,忽略其它随机变量。
离散型随机变量
- 一般地,若有 X 1 , ⋯ , X n X_1,\cdots,X_n X1,⋯,Xn,只保留前 k k k 个变量,则:
P ( x 1 , ⋯ , x k ) = ∑ x k + 1 ⋯ ∑ x n P ( x 1 , ⋯ , x k , x k + 1 , ⋯ , x n ) P(x_1,\cdots,x_k)=\sum_{x_{k+1}}\cdots\sum_{x_n}P(x_1,\cdots,x_k,x_{k+1},\cdots,x_n) P(x1,⋯,xk)=xk+1∑⋯xn∑P(x1,⋯,xk,xk+1,⋯,xn)
这就是离散型变量的边缘化。
连续型随机变量
如果 (X,Y,Z) 是连续型随机变量,联合密度为:
f X , Y , Z ( x , y , z ) f_{X,Y,Z}(x,y,z) fX,Y,Z(x,y,z)
那么 (X) 的边缘密度为:
f X ( x ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d y , d z f_X(x)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dy,dz fX(x)=∫−∞+∞∫−∞+∞fX,Y,Z(x,y,z),dy,dz
如果只消去 (Z),保留 (X,Y),则:
f X , Y ( x , y ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d z f_{X,Y}(x,y)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dz fX,Y(x,y)=∫−∞+∞fX,Y,Z(x,y,z),dz
条件概率:在部分变量已知时,另一些变量的概率
- 条件概率表示:已知某些随机变量的取值后,另一些随机变量取某些值的概率。
离散型随机变量
更一般地,若把变量分成两组:
X = ( X 1 , ⋯ , X k ) , Y = ( Y 1 , ⋯ , Y m ) X=(X_1,\cdots,X_k),\quad Y=(Y_1,\cdots,Y_m) X=(X1,⋯,Xk),Y=(Y1,⋯,Ym)
则:
P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y ) P(X=x\mid Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)} P(X=x∣Y=y)=P(Y=y)P(X=x,Y=y)
其中:
P ( Y = y ) = ∑ x P ( X = x , Y = y ) P(Y=y)=\sum_x P(X=x,Y=y) P(Y=y)=x∑P(X=x,Y=y)
连续型随机变量
连续型变量中,对应的是条件密度。
如果有联合密度:
f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y)
那么条件密度为:
f X ∣ Y ( x ∣ y ) = f X , Y ( x , y ) f Y ( y ) f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)} fX∣Y(x∣y)=fY(y)fX,Y(x,y)
其中:
f Y ( y ) = ∫ − ∞ + ∞ f X , Y ( x , y ) , d x f_Y(y)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y),dx fY(y)=∫−∞+∞fX,Y(x,y),dx
如果有三个连续变量 (X,Y,Z),则:
f X ∣ Y , Z ( x ∣ y , z ) = f X , Y , Z ( x , y , z ) f Y , Z ( y , z ) f_{X\mid Y,Z}(x\mid y,z)=\frac{f_{X,Y,Z}(x,y,z)}{f_{Y,Z}(y,z)} fX∣Y,Z(x∣y,z)=fY,Z(y,z)fX,Y,Z(x,y,z)
其中:
f Y , Z ( y , z ) = ∫ − ∞ + ∞ f X , Y , Z ( x , y , z ) , d x f_{Y,Z}(y,z)=\int_{-\infty}^{+\infty}f_{X,Y,Z}(x,y,z),dx fY,Z(y,z)=∫−∞+∞fX,Y,Z(x,y,z),dx
条件概率公式:条件 = 联合 / 边缘
概率论的链式法则
一般地,对于 (n) 个随机变量,有链式法则:
P ( X 1 , ⋯ , X n ) = P ( X 1 ∣ X 2 , ⋯ , X n ) P ( X 2 ∣ X 3 , ⋯ , X n ) ⋯ P ( X n − 1 ∣ X n ) P ( X n ) P(X_1,\cdots,X_n)=P(X_1\mid X_2,\cdots,X_n)P(X_2\mid X_3,\cdots,X_n)\cdots P(X_{n-1}\mid X_n)P(X_n) P(X1,⋯,Xn)=P(X1∣X2,⋯,Xn)P(X2∣X3,⋯,Xn)⋯P(Xn−1∣Xn)P(Xn)
也常写成另一种顺序:
P ( X 1 , ⋯ , X n ) = P ( X 1 ) ∏ i = 2 n P ( X i ∣ X 1 , ⋯ , X i − 1 ) P(X_1,\cdots,X_n)=P(X_1)\prod_{i=2}^{n}P(X_i\mid X_1,\cdots,X_{i-1}) P(X1,⋯,Xn)=P(X1)i=2∏nP(Xi∣X1,⋯,Xi−1)
贝叶斯公式
含义1:条件-联合-边缘概率转换公式
P ( X ∣ Y ) = P ( X , Y ) P ( Y ) \begin{align}P(\mathbf{X}\mid\mathbf{Y})=\frac{P(\mathbf{X},\mathbf{Y})}{P(\mathbf{Y})}\end{align} P(X∣Y)=P(Y)P(X,Y)
含义2:先验和后验公式
P ( X = x ∣ Y = y ) = P ( Y = y ∣ X = x ) P ( X = x ) P ( Y = y ) \begin{align} P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y}) =\frac{ P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})P(\mathbf{X}=\mathbf{x}) }{ P(\mathbf{Y}=\mathbf{y}) } \end{align} P(X=x∣Y=y)=P(Y=y)P(Y=y∣X=x)P(X=x)
情景:根据证据纠正信念
- 先验:我们认为一个人感冒的概率为0.1
- 似然:在此先验下,我们认为感冒的情况下,观测到咳嗽(证据)的概率为0.8
- 后验:根据咳嗽可以修复我们对这个人感冒的认识,该人感冒的概率为0.9
先验:对X的原始信念
P ( X = x ) \begin{align}P(\mathbf{X}=\mathbf{x})\end{align} P(X=x)
似然:在先验概率下观察到证据的概率
P ( Y = y ∣ X = x ) \begin{align}P(\mathbf{Y}=\mathbf{y}\mid \mathbf{X}=\mathbf{x})\end{align} P(Y=y∣X=x)
后验:对于X信念的修正
P ( X = x ∣ Y = y ) \begin{align}P(\mathbf{X}=\mathbf{x}\mid \mathbf{Y}=\mathbf{y})\end{align} P(X=x∣Y=y)
全概率公式
含义:联合概率转换为边缘概率
- 注意:X和Y都是向量
P ( Y = y ) = ∑ x P ( Y = y , X = x ) \begin{align} P(\mathbf{Y}=\mathbf{y}) =\sum_{\mathbf{x}} P(\mathbf{Y}=\mathbf{y},\mathbf{X}=\mathbf{x}) \end{align} P(Y=y)=x∑P(Y=y,X=x) - 对多个变量进行积分:
f Y ( y ) = ∫ f Y ∣ X ( y ∣ x ) f X ( x ) d x \begin{align} f_{\mathbf{Y}}(\mathbf{y}) =\int f_{\mathbf{Y}\mid \mathbf{X}}(\mathbf{y}\mid \mathbf{x})f_{\mathbf{X}}(\mathbf{x}) \,d\mathbf{x} \end{align} fY(y)=∫fY∣X(y∣x)fX(x)dx
概率分布
| 分布 | 记号 | 随机变量含义 | 分布列 / 密度函数 | 期望 | 方差 |
|---|---|---|---|---|---|
| 0-1 分布 / 伯努利分布 | b ( 1 , p ) b(1,p) b(1,p) | 一次试验是否成功 | P ( X = k ) = p k ( 1 − p ) 1 − k , k = 0 , 1 P(X=k)=p^k(1-p)^{1-k},\ k=0,1 P(X=k)=pk(1−p)1−k, k=0,1 | p p p | p ( 1 − p ) p(1-p) p(1−p) |
| 二项分布 | b ( n , p ) b(n,p) b(n,p) | n n n 次独立重复试验中成功的次数 | P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\binom{n}{k}p^k(1-p)^{n-k} P(X=k)=(kn)pk(1−p)n−k | n p np np | n p ( 1 − p ) np(1-p) np(1−p) |
| 泊松分布 | P ( λ ) P(\lambda) P(λ) | 单位时间或单位区域内事件发生的次数 | P ( X = k ) = λ k k ! e − λ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda} P(X=k)=k!λke−λ | λ \lambda λ | λ \lambda λ |
| 超几何分布 | h ( n , N , M ) h(n,N,M) h(n,N,M) | 不放回抽样中某类物品被抽到的件数 | P ( X = k ) = ( M k ) ( N − M n − k ) ( N n ) P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kM)(n−kN−M) | n M N n\frac{M}{N} nNM | n M ( N − M ) ( N − n ) N 2 ( N − 1 ) \frac{nM(N-M)(N-n)}{N^2(N-1)} N2(N−1)nM(N−M)(N−n) |
| 几何分布 | G e ( p ) Ge(p) Ge(p) | 第一次成功出现时所需的试验次数 | P ( X = k ) = ( 1 − p ) k − 1 p , k = 1 , 2 , ⋯ P(X=k)=(1-p)^{k-1}p,\ k=1,2,\cdots P(X=k)=(1−p)k−1p, k=1,2,⋯ | 1 p \frac{1}{p} p1 | 1 − p p 2 \frac{1-p}{p^2} p21−p |
| 负二项分布 | N b ( r , p ) Nb(r,p) Nb(r,p) | 第 r r r 次成功出现时所需的试验次数 | P ( X = k ) = ( k − 1 r − 1 ) ( 1 − p ) k − r p r P(X=k)=\binom{k-1}{r-1}(1-p)^{k-r}p^r P(X=k)=(r−1k−1)(1−p)k−rpr | r p \frac{r}{p} pr | r ( 1 − p ) p 2 \frac{r(1-p)}{p^2} p2r(1−p) |
| 均匀分布 | U ( a , b ) U(a,b) U(a,b) | 在区间 ( a , b ) (a,b) (a,b) 内等可能取值 | f ( x ) = 1 b − a , a < x < b f(x)=\frac{1}{b-a},\ a<x<b f(x)=b−a1, a<x<b | a + b 2 \frac{a+b}{2} 2a+b | ( b − a ) 2 12 \frac{(b-a)^2}{12} 12(b−a)2 |
| 正态分布 | N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | 大量随机因素共同作用下的连续变量 | f ( x ) = 1 2 π σ exp { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} f(x)=2π σ1exp{−2σ2(x−μ)2} | μ \mu μ | σ 2 \sigma^2 σ2 |
| 指数分布 | E x p ( λ ) Exp(\lambda) Exp(λ) | 等待某事件第一次发生所需的时间 | f ( x ) = λ e − λ x , x ≥ 0 f(x)=\lambda e^{-\lambda x},\ x\ge 0 f(x)=λe−λx, x≥0 | 1 λ \frac{1}{\lambda} λ1 | 1 λ 2 \frac{1}{\lambda^2} λ21 |
泊松分布的含义: X X X表示一段时间内事件发生的次数
P ( X = k ) = λ k k ! e − λ , k = 0 , 1 , 2 , ⋯ \begin{align}P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots\end{align} P(X=k)=k!λke−λ,k=0,1,2,⋯
- 随机变量X表示:1h内 公交车到站次数 ,1h事件 的发生次数
- λ \lambda λ:1h公交车平均到站次数。
- 假设平均到站次数为3个电话,那么1h内到站次数为5的概率为:
P ( X = 5 ) = 3 5 5 ! e − 3 \begin{align}P(X=5)=\frac{3^5}{5!}e^{-3}\end{align} P(X=5)=5!35e−3
指数分布的含义: X X X表示下一次事件的发生时间
X ∼ E x p ( λ ) \begin{align}X\sim Exp(\lambda)\end{align} X∼Exp(λ)
P ( X > x ) = e − λ x \begin{align}P(X>x)=e^{-\lambda x}\end{align} P(X>x)=e−λx
其中 x ≥ 0 x\geq0 x≥0,随机变量X表示:公交车到站的等待事件,排队的等待时间
- 假设排队的平均等待时间为 1 / λ 1/\lambda 1/λ,那么等待时间不超过15的概率为:
P ( X < = x ) = 1 − λ e − λ x \begin{align}P(X<=x)=1-\lambda e^{-\lambda x}\end{align} P(X<=x)=1−λe−λx
随机变量和随机向量
x = x 1 x 2 ⋮ x n ∈ R n \begin{align} x= \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} \in \mathbb{R}^n \end{align} x= x1x2⋮xn ∈Rn
期望
E x = E \[ x 1 E x 2 ⋮ E x n ] \begin{align} \mathbb{E}x= \begin{bmatrix} \mathbb{E}x_1\\ \mathbb{E}x_2\\ \vdots\\ \mathbb{E}x_n \end{bmatrix} \end{align} Ex= Ex1Ex2⋮Exn
随机变量的方差和协方差
| 概念 | 公式 | 维度 | 含义 |
|---|---|---|---|
| 随机向量期望 | (\mathbb{E}x) | (n\times 1) | 随机向量的平均位置 |
| 自协方差矩阵 | (\mathrm{Cov}(x,x)) | (n\times n) | 描述 (x) 内部分量之间的波动和相关关系 |
| 交叉协方差矩阵 | (\mathrm{Cov}(x,y)) | (m\times n) | 描述 (x) 的分量与 (y) 的分量之间的交叉关系 |
| 对角线元素 | (\mathrm{Cov}(x_i,x_i)) | 标量 | 第 (i) 个变量自己的方差 |
| 非对角线元素 | (\mathrm{Cov}(x_i,x_j)) | 标量 | 两个变量之间的协方差 |
V a r ( x ) = E ( x − E \[ x ) 2 ] \begin{align} \mathrm{Var}(x)=\mathbb{E}\left(x-\\mathbb{E}\[x)^2\right] \end{align} Var(x)=E(x−E\[x)2]
随机向量的方差和协方差:随机向量之间不同分量组合的相关程度
- 元素表示每一个随机变量之间的关联程度 / 波动程度:
- 注意:协方差矩阵为nxn 的,所以是列向量乘以行向量
C o v ( x , x ) = E ( x − E \[ x ) ( x − E x ) T ] \begin{align} \mathrm{Cov}(x,x)= \mathbb{E}\left(x-\\mathbb{E}\[x)(x-\mathbb{E}x)^T\right] \end{align} Cov(x,x)=E(x−E\[x)(x−Ex)T]
C o v ( x , x ) = C o v ( x 1 , x 1 ) C o v ( x 1 , x 2 ) ⋯ C o v ( x 1 , x n ) C o v ( x 2 , x 1 ) C o v ( x 2 , x 2 ) ⋯ C o v ( x 2 , x n ) ⋮ ⋮ ⋱ ⋮ C o v ( x n , x 1 ) C o v ( x n , x 2 ) ⋯ C o v ( x n , x n ) \begin{align} \mathrm{Cov}(x,x) =\begin{bmatrix} \mathrm{Cov}(x_1,x_1) & \mathrm{Cov}(x_1,x_2) & \cdots & \mathrm{Cov}(x_1,x_n)\\ \mathrm{Cov}(x_2,x_1) & \mathrm{Cov}(x_2,x_2) & \cdots & \mathrm{Cov}(x_2,x_n)\\ \vdots & \vdots & \ddots & \vdots\\ \mathrm{Cov}(x_n,x_1) & \mathrm{Cov}(x_n,x_2) & \cdots & \mathrm{Cov}(x_n,x_n) \end{bmatrix} \end{align} Cov(x,x)= Cov(x1,x1)Cov(x2,x1)⋮Cov(xn,x1)Cov(x1,x2)Cov(x2,x2)⋮Cov(xn,x2)⋯⋯⋱⋯Cov(x1,xn)Cov(x2,xn)⋮Cov(xn,xn)
不同随机向量的协方差矩阵:
C o v ( x , y ) = E ( x − E \[ x ) ( y − E y ) T ] \begin{align} \mathrm{Cov}(x,y) =\mathbb{E}\left(x-\\mathbb{E}\[x)(y-\mathbb{E}y)^T\right] \end{align} Cov(x,y)=E(x−E\[x)(y−Ey)T]
协方差矩阵 Σ x \Sigma_x Σx:随机变量不同分量的波动程度和相关性
- 不同分量:例如身高,体重的相关程度和波动。
Σ x = C o v ( x ) = C o v ( x , x ) \begin{align} \Sigma_x =\mathrm{Cov}(x)= \mathrm{Cov}(x,x) \end{align} Σx=Cov(x)=Cov(x,x)
期望和方差/协方差的性质:多个随机变量 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn线性组合
期望的线性组合性质:无条件
E A x + B y + c = A E x + B E y + c \begin{align} \mathbb{E}Ax+By+c =A\mathbb{E}x+B\mathbb{E}y+c \end{align} EAx+By+c=AEx+BEy+c
协方差的线性组合性质:通用和独立版本
设随机向量 (x_1,\dots,x_m) 与 (y_1,\dots,y_n) 二阶矩存在,(A_i,B_j) 是确定矩阵,(a,b) 是确定向量:
u = ∑ i = 1 m A i x i + a , v = ∑ j = 1 n B j y j + b \begin{align} u=\sum_{i=1}^{m}A_i x_i+a, \quad v=\sum_{j=1}^{n}B_j y_j+b \end{align} u=i=1∑mAixi+a,v=j=1∑nBjyj+b
则:
C o v ( u , v ) = ∑ i = 1 m ∑ j = 1 n A i C o v ( x i , y j ) B j T \begin{align} \mathrm{Cov}(u,v) =\sum_{i=1}^{m}\sum_{j=1}^{n} A_i\mathrm{Cov}(x_i,y_j)B_j^T \end{align} Cov(u,v)=i=1∑mj=1∑nAiCov(xi,yj)BjT
这就是协方差矩阵在线性组合下的通用公式。
独立与相关
- X和Y相互独立的定义
X ⊥ ⊥ Y \begin{align} \mathbf{X} \perp\!\!\!\perp \mathbf{Y} \end{align} X⊥⊥Y
标准定义
- 与变量Y无关
P ( X ∣ Y ) = P ( X ) \begin{align} P(X|Y)=P(X) \end{align} P(X∣Y)=P(X)
推论
P ( X ) P ( Y ) = P ( X , Y ) \begin{align} P(X)P(Y)=P(X,Y) \end{align} P(X)P(Y)=P(X,Y)