概率论公式整理

1 概率

  • 古典概型和几何概型
    • 古典概型(有限等可能)
    • 几何概型(无限等可能)
  • 条件概率

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B) = \frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)

  • 全概率公式

P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum \limits_{i = 1}^n P(A_i)P(B|A_i) P(B)=i=1∑nP(Ai)P(B∣Ai)

  • 贝叶斯公式:根据先验概率计算后验概率

P ( H ∣ E ) = P ( H ) P ( E ∣ H ) P ( E ) P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ i P ( B i ) P ( A ∣ B i ) P ( H i ∣ E 1 E 2 ⋯ E m ) = P ( E 1 ∣ H i ) P ( E 2 ∣ H i ) ⋯ P ( E m ∣ H i ) P ( H i ) ∑ j = 1 n P ( E 1 ∣ H j ) P ( E 2 ∣ H j ) ⋯ P ( E m ∣ H j ) P ( H j ) P(H|E) = \frac{P(H)P(E|H)}{P(E)} \\ P(B_i | A) = \frac{P(B_i)P(A|B_i)}{\sum_i P(B_i) P(A|B_i)} \\ P(H_i | E_1E_2 \cdots E_m) = \frac{P(E_1|H_i)P(E_2|H_i) \cdots P(E_m|H_i)P(H_i)}{\sum \limits_{j = 1}^n P(E_1|H_j)P(E_2|H_j) \cdots P(E_m|H_j)P(H_j)} P(H∣E)=P(E)P(H)P(E∣H)P(Bi∣A)=∑iP(Bi)P(A∣Bi)P(Bi)P(A∣Bi)P(Hi∣E1E2⋯Em)=j=1∑nP(E1∣Hj)P(E2∣Hj)⋯P(Em∣Hj)P(Hj)P(E1∣Hi)P(E2∣Hi)⋯P(Em∣Hi)P(Hi)

  • 先验概率和后验概率
    • 先验概率:事情未发生,根据以往数据分析得到的概率
    • 后验概率:事情已发生,这件事情发生的原因是由某个因素引起的概率。 P ( B i ∣ A ) P(B_i|A) P(Bi∣A) 中 B i B_i Bi 为某个因素, A A A 为已经发生的结果

2 离散随机变量及分布

X X X 的概率分布函数:

  • 两点分布(01分布) X ∼ B ( 1 , p ) X \thicksim B(1, p) X∼B(1,p)

P ( X = 0 ) = 1 − p P ( X = 1 ) = p p ∈ ( 0 , 1 ) P(X = 0) = 1 - p \\ P(X = 1) = p \\ p \in (0,1) P(X=0)=1−pP(X=1)=pp∈(0,1)

  • 二项分布(伯努利分布) X ∼ B ( n , p ) X \thicksim B(n, p) X∼B(n,p)

P ( X = k ) = C n k p k ( 1 − p ) n − k p ∈ ( 0 , 1 ) , k = 0 , 1 , 2 , ⋯   , n P(X = k) = C_n^k p^k (1 - p)^{n - k} \hspace{1em} p \in (0,1), k = 0,1,2,\cdots, n P(X=k)=Cnkpk(1−p)n−kp∈(0,1),k=0,1,2,⋯,n

  • 泊松分布 X ∼ P ( λ ) X \thicksim P(\lambda) X∼P(λ)

P ( X = k ) = λ k e − λ k ! λ > 0 , k = 0 , 1 , 2 , ⋯ P(X = k) = \frac{\lambda ^ k e ^{- \lambda}}{k!} \hspace{1em} \lambda \gt 0, k = 0,1,2,\cdots P(X=k)=k!λke−λλ>0,k=0,1,2,⋯

  • 几何分布 X ∼ G ( p ) X \thicksim G(p) X∼G(p)

P ( X = k ) = ( 1 − p ) k − 1 p p ∈ ( 0 , 1 ) , k = 1 , 2 , ⋯ P(X = k) = (1 - p) ^ {k - 1} p \hspace{1em} p \in (0, 1), k = 1, 2, \cdots P(X=k)=(1−p)k−1pp∈(0,1),k=1,2,⋯

  • 超几何分布 X ∼ h ( n , N , M ) X \thicksim h(n, N, M) X∼h(n,N,M)

N N N个产品, M M M个次品,从中无放回随机抽取 n n n个,不合格数 X X X服从超几何分布
P ( X = k ) = C N − M n − k C M k C N n P(X = k) = \frac{C_{N - M} ^ {n - k}C_M^k}{C_N ^ n} P(X=k)=CNnCN−Mn−kCMk

联合分布函数:二维随机变量 ( X , Y ) (X, Y) (X,Y) 的分布函数。

边缘概率函数:从联合分布函数得到只关于一个变量的概率分布,而不再考虑另一变量的影响,相当于降维操作

条件概率函数:在一个已知变量发生的情况下,考虑另一个变量的概率分布函数

3 连续随机变量及分布

概率密度函数:连续型随机变量 X X X 的分布函数为 F ( x ) F(x) F(x) ,若存在一个非负的函数 f ( x ) f(x) f(x) ,使得对任意 x x x 有:
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int _{-\infin} ^x f(t) dt F(x)=∫−∞xf(t)dt

则称 f ( x ) f(x) f(x) 为 X X X 的概率密度函数

联合概率密度:二维随机变量的概率密度函数

边缘分布函数:二维随机变量关于某一维变量的概率密度分布,化为关于这一维变量的积分函数

  • 均匀分布 X ∼ U ( a , b ) X \thicksim U(a, b) X∼U(a,b)

f ( x ) = { 1 b − a , a ≤ x ≤ b 0 , 其他 f(x) = \begin{cases} \frac{1}{b - a}, & a \le x \le b \\ 0, &其他 \end{cases} f(x)={b−a1,0,a≤x≤b其他

  • 指数分布 X ∼ E ( λ ) X \thicksim E(\lambda) X∼E(λ)

f ( x ) = { λ e − λ x , x > 0 0 , 其他 f(x) = \begin{cases} \lambda e ^{-\lambda x}, & x \gt 0 \\ 0, &其他 \end{cases} f(x)={λe−λx,0,x>0其他

  • 正态分布(高斯分布) X ∼ N ( μ , σ 2 ) X \thicksim N(\mu, \sigma ^ 2) X∼N(μ,σ2)

f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2 \pi} \sigma} \huge{e} ^ {\large{- \frac{(x - \mu) ^ 2}{2 \sigma ^ 2}}} f(x)=2π σ1e−2σ2(x−μ)2

标准正态分布 X ∼ N ( 0 , 1 ) X \thicksim N(0, 1) X∼N(0,1)

4 随机变量数字特征

  • 数学期望

离散分布的数学期望:

  1. 两点分布 p p p

  2. 二项分布 n p np np

  3. 泊松分布 λ \lambda λ

  4. 几何分布 1 p \frac{1}{p} p1

连续分布的数学期望:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X) = \int _{-\infin}^{+ \infin} xf(x) dx E(X)=∫−∞+∞xf(x)dx

  1. 均匀分布 a + b 2 \frac{a + b}{2} 2a+b
  2. 指数分布 1 λ \frac{1}{\lambda} λ1
  3. 正态分布 μ \mu μ
  • 方差

D ( X ) = E [ ( X − E ( X ) ) 2 ] = E ( X 2 ) − E 2 ( X ) D(X) = E[(X - E(X))^2] = E(X^2) - E^2(X) D(X)=E[(X−E(X))2]=E(X2)−E2(X)

  • 协方差

C o v ( X , Y ) = E [ ( X − E [ X ] ) ( Y − E [ Y ] ) ] = E [ X Y ] − E [ X ] E [ Y ] Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−E[X]E[Y]

从数值来看,协方差的数值越大,两个变量同向程度也就越大。反之亦然。

两个集合X和Y的协方差计算公式为:
Cov ( X , Y ) = 1 n ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) Cov(X,Y)=n1i=1∑n(xi−xˉ)(yi−yˉ)

  • 相关系数

ρ X Y = C o v ( X , Y ) D ( X ) D ( Y ) \rho_{_{XY}} = \frac{Cov(X, Y)}{\sqrt{D(X)} \sqrt{D(Y)}} ρXY=D(X) D(Y) Cov(X,Y)

相关系数等于0,不相关,相互独立

  • 独立、互斥、相关(线性相关)

5 大数定理和中心极限定理

  • 大数定理

样本数量很大的时候,样本均值和数学期望充分接近,也就是说当我们大量重复某一相同的实验的时候,其最后的实验结果可能会稳定在某一数值附近。

伯努利大数定律: f n ( A ) f_n(A) fn(A) 为事件 A A A 出现的频率, p p p 是事件A每次实验中发生的概率
l i m n → ∞ P { ∣ f n ( A ) − p ∣ < ε } = 1 \mathop{lim} \limits _{n \rightarrow \infin} P \{ |f_n(A) - p| \lt \varepsilon \} = 1 n→∞limP{∣fn(A)−p∣<ε}=1

还有切比雪夫大数定律,马尔科夫大数定律

  • 中心极限定理

大量( n → ∞ n \to \infin n→∞)、独立、同分布的随机变量之和,近似服从于一维正态分布。

随机变量之和的标准化变量为
η = ∑ i = 1 n x i − n μ n σ \eta = \frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma} η=n σi=1∑nxi−nμ

均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2的独立同分布的随机变量序列 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn,只要 n n n足够大,就有
∑ i = 1 n x i − n μ n σ ∼ 近似 N ( 0 , 1 ) \frac{\sum \limits _{i = 1} ^{n} x_i - n \mu}{\sqrt{n} \sigma} \stackrel{近似}{\thicksim} N(0, 1) n σi=1∑nxi−nμ∼近似N(0,1)

6 参数估计

极大似然估计要求所有采样都是独立同分布的

就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!

求最大似然估计量 θ ^ \hat \theta θ^ 步骤:

  1. 写出似然函数,似然函数越大越好

L = ∏ i = 1 n f ( x i ) L = \prod \limits _{i = 1} ^n f(x_i) L=i=1∏nf(xi)

  1. 对似然函数取对数,整理

  2. 求导数,让导数等于0

  3. 解似然方程

相关推荐
2302_7969847412 小时前
概率论基础知识点公式汇总
概率论
项目申报小狂人12 小时前
广义正态分布优化算法(GNDO)Generalized Normal Distribution Optimization
算法·概率论
2302_7969847412 小时前
概率论基础
概率论
感谢地心引力1 天前
【数据分析】层次贝叶斯
机器学习·数据分析·概率论
Mount2561 天前
【数理统计】极限定理及抽样分布
概率论
勤劳的进取家1 天前
多维高斯分布
人工智能·机器学习·概率论
公众号Codewar原创作者1 天前
R机器学习:朴素贝叶斯算法的理解与实操
人工智能·机器学习·概率论
orion-orion2 天前
概率论沉思录:初等假设检验
人工智能·概率论·科学哲学
Mount2562 天前
【数理统计】参数估计
概率论
Trouvaille ~4 天前
【机器学习】解构概率,重构世界:贝叶斯定理与智能世界的暗语
人工智能·python·深度学习·神经网络·机器学习·ai·概率论