概率简单来说是一种衡量事件发生可能性大小的方法,而概率论研究的就是这些概率之间相互转化的关系。在机器学习、数据挖掘等领域,概率论就发挥着至关重要的作用。那关于概率论,我们需要掌握哪些知识呢?这些知识究竟可以用在什么地方呢?这篇文章我们就来聊聊概率论,让你下次遇到概率论相关问题时做到心中有数。
随机事件和概率
随机事件是指结果不确定的事件,比如说每次抛硬币时,在硬币落地之前,我们无法确定是正面朝上还是反面朝上。这时,我们就可以使用概率来描述这个随机事件结果的可能性,比如说每次抛硬币时,出现正面朝上的概率为 <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 2 \frac{1}{2} </math>21.
在数学中,一般使用大写字母代表一个事件,P 表示该事件发生的概率。比如,硬币正面朝上的概率为 P(A) = <math xmlns="http://www.w3.org/1998/Math/MathML"> 1 2 \frac{1}{2} </math>21
古典概型
在概率论发展的历史上,最先研究的是一类最直观、最简单的随机现象.在这类随机现象中,样本空间中的每个基本事件发生的可能性都相等,这样的数学模型我们称之为等可能概型.古典概型的概率计算公式为 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A ) = m n P(A)=\frac{m}{n} </math>P(A)=nm。古典概型常见示例如下:
示例1:投掷硬币三次,试求结果为一正两反的概率
第一步计算所有可能的结果。投掷一枚硬币,每次都有两种可能的结果(正面或反面)。那么投掷三次硬币,一共会有 8 中结果。
第二步确定符合要求的情况数。我们要求的是"结果为一正两反"的概率,满足"一正两反"这一条件的情况有以下三种: (正,反,反)、(反,正,反)、(反,反,正)。
第三步计算概率 。根据古典概型的概率计算公式 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A ) = m n P(A)=\frac{m}{n} </math>P(A)=nm(其中(n)是所有可能的结果,(m)是符合要求的情况数),已知(n = 8),(m = 3),可计算到投掷硬币三次,结果为一正两反的概率是 <math xmlns="http://www.w3.org/1998/Math/MathML"> 3 8 \frac{3}{8} </math>83
随机事件的关系和运算
通用的公式
随机事件之间的概率公式如下:
如果不想背公式,可以使用画图法。如下图所示,可以看出 P(A - B) = P(A) - P(AB)
其中 A + B 等同于 A ∪ B(A 和 B 的并集);AB 等同于 A ∩ B(A和B的交集)。
特殊事件的公式
如果随机事件满足特定的关系,还有特殊的公式。如下图所示:
多个随机事件和概率
现代概率论主要分析多个随机事件概率之间的相互关系,目前主要有条件概率、联合概率。
条件概率
条件概率是指在某随机事件A发生的条件下,另一随机事件B发生的概率,记为P(B|A) 。条件概率的计算公式为:P(B|A)= <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A B ) P ( A ) \frac{P(AB)}{P(A)} </math>P(A)P(AB)。
常见示例如下:
- 计算条件概率
- 根据条件概率求其他概率
可以看到最后的 P(B + A) 是使用通用公式计算得到的。
全概率公式和贝叶斯公式
对于比较复杂的条件概率,我们一般会使用全概率公式和贝叶斯公式来运算:
全概率公式: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(A)=\sum_{i = 1}^{n}P(B_{i})P(A|B_{i}) </math>P(A)=∑i=1nP(Bi)P(A∣Bi)。当n为2时, <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( A ) = P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) P(A)=P(B_1)P(A|B_1)+P(B_2)P(A|B_2) </math>P(A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)
贝叶斯定理: <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B j ∣ A ) = P ( B j ) P ( A ∣ B j ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P(B_{j}|A)=\frac{P(B_{j})P(A|B_{j})}{\sum_{i = 1}^{n}P(B_{i})P(A|B_{i})} </math>P(Bj∣A)=∑i=1nP(Bi)P(A∣Bi)P(Bj)P(A∣Bj)。当n为2时, <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( B 1 ∣ A ) = P ( B 1 ) P ( A ∣ B 1 ) P ( B 1 ) P ( A ∣ B 1 ) + P ( B 2 ) P ( A ∣ B 2 ) P(B_1|A)=\frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1)+P(B_2)P(A|B_2)} </math>P(B1∣A)=P(B1)P(A∣B1)+P(B2)P(A∣B2)P(B1)P(A∣B1)
联合概率和边缘概率
联合概率是指两个或多个随机变量同时发生的概率。对于两个随机变量 X 和 Y,其联合概率记为 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( X = x , Y = y ) P(X = x,Y = y) </math>P(X=x,Y=y)。需要注意,联合概率是其中所有条件(X = x 和 Y = y)都成功的概率。相对的,只有P(X = x) 或者 P(Y = y) 只有单个随机事件成立的概率称为边缘概率。这个会在二维随机变量章节中详细介绍。
随机变量
为了方便数学方法处理,引入了随机变量这个概率。随机变量简单来说是一个会随时改变的不确定的量。随机变量有两种,分别是 离散型随机变量 和 连续型随机变量 。它们之间的区别是,离散型随机变量的取值是可列举的离散点;而连续型随机变量的取值则是一个区间的所有实数。
离散型随机变量
在离散型随机变量中,有两种最重要的概念,分别是分布律 和分布函数。
从上图可以看出,分布率其实是指每一个离散点可能出现的概率,一般以列表的形式展示。需要注意:离散型随机变量的所有离散点的概率之和为 1
而分布函数,则是分布律的函数形式,如下图所示。需要注意的是,分布函数的取值范围,其最后的结果为 1.
连续型随机变量
由于连续型随机变量的取值则是一个区间的所有实数,因此当我们描述连续型随机变量时,用来描述离散型随机变量的分布律就没法再使用了,而要改用概率密度函数来表示。其中概率密度函数在指定区间内的面积等于 1。
因此如果需要求连续型随机变量的概率就需要计算积分,或者求概率密度函数的原函数,也叫分布函数。
常见的离散型随机变量
二项分布
二项分布是一种离散型概率分布,用于描述在次独立重复的伯努利试验中,恰好发生次成功的概率。这里的伯努利试验是指只有两种可能结果(成功或失败)的试验,且每次试验成功的概率是固定不变的。对于这一类的概率分布,满足下面的公式:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k)=C_{n}^{k}p^{k}(1 - p)^{n - k} </math>P(X=k)=Cnkpk(1−p)n−k
二项分布也可以简化为 X~B(n,p) 的形式,其中 B 表示二项分布,n 表示次数,p表示概率
二项分布常见于抛掷一枚均匀的骰子、产品抽样检测等
泊松分布
设随机变量X的取值为0,1,2,...,n,...,相应的分布律为
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> P ( X = k ) = λ k e − λ k ! P(X = k)=\frac{\lambda^{k}e^{-\lambda}}{k!} </math>P(X=k)=k!λke−λ
称随机变量X服从参数为λ的泊松分布,记为X~P(λ)
对于泊松分布,如果 X~P(λ1)和 Y~P(λ2),且 X 与 Y 相互独立,那么 X + Y ~P(λ1+λ2)
对于随机变量X服从二项分布 X~B(n,p),如果 n 很大、p很小,np < 5,那么 X 近似等于泊松分布 P(np)
泊松分布常常与计数过程相联系,例如:(1)某一时段内某网站的点击量;(2)早高峰时间段内驶入高架道路的车辆数;(3)一本书上的印刷错误数.
常见的连续型随机变量
均匀分布
均匀分布所有可能结果的n个数的发生概率是相等的,它概率密度函数如下
分布函数如下:
一般均匀分布记作 X~U(a,b)
指数分布
满足下面概率密度函数的分布为指数分布,一般记为X~E(λ)
分布函数为
可以直接使用 F(b) - F(a) 的方式来计算出 P(a<x<b)
正态分布
二维随机变量及其分布
二维离散型随机变量
二维离散型随机变量重点概念有:联合概率及联合分布律、边缘概率、条件概率及条件分布律、独立性
二维连续型随机变量
随机变量的数字特征
随机变量的数字特征是描述随机变量某些特征的数值,常见的数字特征及其作用如下:
数学期望
-
定义 :又称均值,是随机变量取值的加权平均数,反映了随机变量取值的平均水平。对于离散型随机变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X ) (X) </math>(X),其概率分布为 <math xmlns="http://www.w3.org/1998/Math/MathML"> P ( X = x i ) = p i , ( i = 1 , 2 , ⋯ ) P(X = x_i) = p_i,(i = 1,2,\cdots) </math>P(X=xi)=pi,(i=1,2,⋯),数学期望 <math xmlns="http://www.w3.org/1998/Math/MathML"> E ( X ) = ∑ i x i p i E(X)=\sum_{i}x_ip_i </math>E(X)=∑ixipi;对于连续型随机变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X ) (X) </math>(X),概率密度函数为 <math xmlns="http://www.w3.org/1998/Math/MathML"> f ( x ) f(x) </math>f(x),则 <math xmlns="http://www.w3.org/1998/Math/MathML"> E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty}xf(x)dx </math>E(X)=∫−∞∞xf(x)dx。
-
作用:可用于预测长期的平均结果,比如在投资决策中,通过计算不同投资方案的数学期望来评估预期收益,选择期望收益较高的方案。
方差
-
定义 :用来衡量随机变量与其数学期望的偏离程度,记为 <math xmlns="http://www.w3.org/1998/Math/MathML"> D ( X ) D(X) </math>D(X)。对于离散型随机变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X ) (X) </math>(X), <math xmlns="http://www.w3.org/1998/Math/MathML"> D ( X ) = ∑ i [ x i − E ( X ) ] 2 p i D(X)=\sum_{i}[x_i - E(X)]^2p_i </math>D(X)=∑i[xi−E(X)]2pi;对于连续型随机变量 <math xmlns="http://www.w3.org/1998/Math/MathML"> ( X ) (X) </math>(X), <math xmlns="http://www.w3.org/1998/Math/MathML"> D ( X ) = ∫ − ∞ ∞ [ x − E ( X ) ] 2 f ( x ) d x D(X)=\int_{-\infty}^{\infty}[x - E(X)]^2f(x)dx </math>D(X)=∫−∞∞[x−E(X)]2f(x)dx。方差的平方根称为标准差 <math xmlns="http://www.w3.org/1998/Math/MathML"> σ ( X ) \sigma(X) </math>σ(X)。
-
作用:方差越大,说明随机变量的取值越分散,风险也就越大。在投资中,方差可以用来衡量投资收益的稳定性,帮助投资者评估风险。
协方差与相关系数
-
协方差定义 :用于衡量两个随机变量(X)和(Y)之间的线性相关程度,记为 <math xmlns="http://www.w3.org/1998/Math/MathML"> C o v ( X , Y ) Cov(X,Y) </math>Cov(X,Y), <math xmlns="http://www.w3.org/1998/Math/MathML"> C o v ( X , Y ) = E [ ( X − E ( X ) ) ( Y − E ( Y ) ) ] Cov(X,Y)=E[(X - E(X))(Y - E(Y))] </math>Cov(X,Y)=E[(X−E(X))(Y−E(Y))]。
-
相关系数定义 :是协方差标准化后的结果,记为 <math xmlns="http://www.w3.org/1998/Math/MathML"> ρ X Y \rho_{XY} </math>ρXY, <math xmlns="http://www.w3.org/1998/Math/MathML"> ρ X Y = C o v ( X , Y ) σ ( X ) σ ( Y ) \rho_{XY}=\frac{Cov(X,Y)}{\sigma(X)\sigma(Y)} </math>ρXY=σ(X)σ(Y)Cov(X,Y),其取值范围在([-1,1])之间。
-
作用:协方差和相关系数可以帮助分析不同变量之间的关系。例如在投资组合中,通过计算不同资产收益率之间的协方差和相关系数,选择相关性较低的资产进行组合投资,以降低风险。
大数定律
大数定律是概率论历史上第一个极限定理,有多个形式,常见的是伯努利大数定律和辛钦大数定律。大数定律揭示了大量随机变量的平均结果具有稳定性,即随着试验次数的增加,事件发生的频率会逐渐稳定在其概率附近。这为用频率估计概率提供了理论依据,在实际应用中,可通过多次重复试验,用事件发生的频率来近似估计其概率。例如,在产品质量检测中,通过大量抽样来估计产品的次品率。
中心极限定律
中心极限定理表明,在一定条件下,大量独立同分布的随机变量的和的分布近似服从正态分布。常见的是独立同分布的中心极限定理和棣莫弗 - 拉普拉斯中心极限定理。
中心极限定理在实际中有着广泛的应用,因为许多实际问题中的随机变量都可以看作是大量独立同分布的随机变量之和。它使得在处理大量随机变量的和的问题时,可以利用正态分布的性质进行近似计算。例如,在对大量产品进行质量检测时,若每个产品的质量指标都独立同分布,那么这批产品的总质量指标就近似服从正态分布,可据此对产品的整体质量进行评估和控制。