概率论基本知识

随机变量及其分布

1.定义

随机变量是定义在样本空间上的实值函数，它将样本空间中的每一个样本点映射到一个实数上。通常用大写字母（如X、Y）表示随机变量，而小写字母（如x、y）表示随机变量的取值。他有两个类型：

2.离散型随机变量及其概率分布

离散型随机变量的概率分布描述了随机变量取各个可能值的概率。设离散型随机变量X所有可能取的值为xk（k=1,2,...），X取各个可能值的概率，即事件X=xk的概率，为P{X=xk}=Pk（k=1,2,...）。取值是有限个或可列个的随机变量。例如，抛掷一枚骰子得到的点数就是一个离散型随机变量。

3.连续型随机变量及其概率密度函数

连续型随机变量

连续型随机变量是指其可能取值的集合是某一区间内的所有实数，且在这个区间内可以取任意实数值的随机变量。与离散型随机变量不同，连续型随机变量的取值具有连续性，无法一一列举。取值可以连续变化，且在某一区间内可以取任意实数值的随机变量。例如，某人在某段时间内的体温就是一个连续型随机变量。

概率密度函数

对于连续型随机变量，其概率分布不能通过列出所有可能取值及其对应概率的方式来描述，而是使用概率密度函数（PDF）来描述。它有以下性质

非负性：概率密度函数f(x)在定义域内的所有值都是非负的，即f(x)≥0。
规范性：概率密度函数f(x)在整个定义域上的积分等于1，即∫f(x)dx=1。这保证了随机变量在其定义域内取值的总概率为1。
概率计算：对于连续型随机变量，随机变量X取值落在某一区间(a,b)内的概率P(a<X<b)等于概率密度函数f(x)在该区间上的积分，即P(a<X<b)=∫abf(x)dx。
连续性：虽然概率密度函数在个别点上的取值不会影响随机变量的表现（因为连续型随机变量在任意一点的概率都是0），但概率密度函数在整个定义域上应该是连续的（或在可数个点上不连续，但相对于整个实数轴来说测度为0）。

4.分布函数

定义

设X是一个随机变量，x是任意实数，函数F(x) = P(X ≤ x)称为X的分布函数。它表示随机变量X取值小于或等于某个特定值x的概率。

性质

非降性：随着随机变量取值的增加，其对应的分布函数值不会减小。这一性质反映了概率的累积特性，即随机变量取值在某个区间内的概率随着区间的扩大而增加。
有界性：分布函数的值域在 $0,1$ 之间。这是因为分布函数表示的是随机变量取值小于或等于某个特定值的概率，而概率的取值范围正是 $0,1$ 。
右连续性：分布函数在其定义域上是右连续的。这意味着，对于任意给定的随机变量取值x，分布函数在x处的值等于其在x右侧极限的值。这一性质保证了分布函数在随机变量取值发生跳跃时能够平滑过渡。
归一性：分布函数在负无穷到正无穷的区间上的值等于1。这反映了概率的全概率原则，即随机变量取所有可能值的概率之和为1。
可导性（对于连续型随机变量）：在某些情况下，分布函数具有可导性。其导数即为概率密度函数，描述了随机变量在特定取值点附近的概率分布情况。

几何意义

如果将X看成是数轴上的随机点的坐标，那么分布函数F(x)在x处的函数值就表示X落在区间(-∞, x]上的概率。从几何上看，分布函数的图形通常是一个平滑的曲线（对于连续型随机变量）或阶梯状曲线（对于离散型随机变量）。

5.常见的分布

5.1 0-1分布

定义

0-1分布是指随机变量X只取两个值0和1，且取这两个值的概率分别为1-p和p（0<p<1）。也就是说，进行一次试验，该事件发生的概率为p，不发生的概率为1-p。

性质

离散性：0-1分布是一个离散型概率分布，其取值只能是0或1。
二值性：随机变量X只能取两个值，即0和1。
概率和为1：事件发生的概率p与不发生的概率1-p之和为1，即p+(1-p)=1。
数学期望：0-1分布的数学期望E(X)=p，即随机变量X的平均值为p。

分布律

对于0-1分布，其分布律可以表示为：

P{X=k}=pk(1−p)1−k，k=0,1

这表示随机变量X取值为k（k=0或1）的概率为pk(1-p)^(1-k)。

0-1分布实际上是n=1情况下的二项分布。二项分布描述的是在n次独立重复的伯努利试验中，事件A恰好发生k次的概率分布。当n=1时，二项分布就退化为0-1分布。

5.2 几何分布

定义

几何分布描述的是在一系列独立同分布的伯努利试验中，第一次成功所需的试验次数的概率分布。具体来说，如果每次试验成功的概率为p（0<p<1），那么进行n次试验后，第n次试验才首次成功的概率就服从几何分布。这里的关键是前n-1次试验都失败，而第n次试验成功。

概率质量函数

几何分布的概率质量函数（PMF）为：

P(X=k)=(1−p)k−1×p

其中，X表示首次成功所需的试验次数，k是具体的试验次数，p是每次试验成功的概率。这个函数给出了X取值为k的概率。

期望与方差

期望：几何分布的期望E(X)表示平均需要多少次试验才能首次成功。其计算公式为：

E(X)=1p

方差：方差Var(X)表示试验次数与期望之间的离散程度。其计算公式为：

Var(X)=1−pp2

几何分布是二项分布的一个特例。当二项分布中的试验次数n趋于无穷大，而成功的次数固定为1时，二项分布就趋近于几何分布。

5.3 二项分布

定义

二项分布描述的是在n次独立重复的伯努利试验中，成功的次数X的概率分布。每次试验只有两种可能的结果：成功或失败，成功的概率为p（0<p<1），失败的概率为1-p。

概率质量函数

二项分布的概率质量函数（PMF）为：

P(X=k)=C(n,k)×pk×(1−p)n−k

其中，C(n,k)表示从n次试验中选择k次成功的组合方式，也称为二项式系数或组合数。这个函数给出了在n次试验中成功k次的概率。

性质

离散性：二项分布是离散型概率分布，其取值只能是自然数0,1,2,...,n。
期望与方差：二项分布的期望E(X)=np，方差Var(X)=np(1-p)。这表示在n次独立重复的伯努利试验中，平均成功的次数为np，成功次数的离散程度为np(1-p)。
对称性：当p=0.5时，二项分布是对称的，即成功和失败的概率相等。此时，分布图形关于n/2对称。
偏态性：当p≠0.5时，二项分布是偏态的。具体来说，当p<0.5时，分布图形向左偏；当p>0.5时，分布图形向右偏。
可加性：如果两个随机变量X和Y分别服从参数为(n1,p)和(n2,p)的二项分布，那么X+Y服从参数为(n1+n2,p)的二项分布。

泊松分布是二项分布在某些条件下的特殊形式。当n很大而p很小时，二项分布可以近似为泊松分布。具体来说，如果n→∞且np→λ（λ为常数），则二项分布B(n,p)近似于泊松分布P(λ)。

5.4 泊松分布

定义

泊松分布描述了在固定时间或空间内，随机事件以固定平均速率独立且随机发生时，该事件在单位时间（或单位面积、单位体积等）内发生的次数。其概率分布函数为：

P(X=k)=λke−λk!

其中，X表示在单位时间（或单位面积、单位体积等）内随机事件发生的次数，k为具体的发生次数，λ为泊松分布的参数，表示单位时间（或单位面积、单位体积等）内随机事件的平均发生率。

性质

离散性：泊松分布是离散型概率分布，其取值只能是自然数0,1,2,...。
期望与方差：泊松分布的期望E(X)和方差Var(X)均为λ，即单位时间（或单位面积、单位体积等）内随机事件的平均发生率。
无记忆性：泊松分布具有间隔无记忆性，即前一时间（或空间）间隔内随机事件是否发生对后一时间（或空间）间隔内随机事件是否发生没有影响。
适用性：泊松分布适用于描述那些稀有且独立随机发生的事件，如每天收到的邮件数量、每小时接到的电话数量等。

与二项分布的关系

泊松分布与二项分布在某些条件下具有相似性。当二项分布的试验次数n很大而每次试验成功的概率p很小时，二项分布可以近似为泊松分布。具体来说，如果n→∞且np→λ（λ为常数），则二项分布B(n,p)近似于泊松分布P(λ)。这一性质使得泊松分布在处理大量稀有事件时具有更高的实用性和便捷性。

5.5 均匀分布

定义

均匀分布是指在一个给定区间 $a, b$ 内，随机变量X取该区间内任意值的概率是相等的。这种分布也被称为矩形分布，其概率密度函数为常数，且在区间 $a, b$ 外取值为0。

概率密度函数

对于均匀分布，其概率密度函数f(x)可以表示为：

f(x)={1b−a,a≤x≤b0,其他

这表示在区间 $a, b$ 内，随机变量X取任意值的概率密度是相等的，且为1/(b-a)；而在区间外，概率密度为0。

性质

对称性：当a和b关于原点对称时，均匀分布是关于原点对称的。
数学期望：均匀分布的数学期望E(X)为(a+b)/2，即区间 $a, b$ 的中点。
方差：均匀分布的方差Var(X)为(b-a)^2/12，它表示随机变量X的取值与其数学期望之间的离散程度。
概率和为1：对于均匀分布，在区间 $a, b$ 内取任意值的概率之和为1。

5.6 指数分布

定义

指数分布描述的是随机事件之间的时间间隔的概率分布，即某一事件以恒定平均速率连续且独立地发生时，该事件在单位时间间隔内发生的次数所服从的分布。其概率密度函数为：

f(x)=λe−λx,x≥0

其中，λ为分布的参数，也称为率参数或事件发生的平均速率，它表示单位时间内事件发生的次数。当x小于0时，f(x)=0。

性质

无记忆性：指数分布具有无记忆性，即如果事件在t时刻之前未发生，那么在未来任意时间间隔内发生的概率与从t时刻开始计算的相应时间间隔内发生的概率相同。这一性质使得指数分布在描述某些具有"无记忆"特性的随机过程时非常有用。
数学期望与方差：指数分布的数学期望E(X)为1/λ，方差Var(X)为1/λ²。这表示随机事件平均发生的时间间隔为1/λ，而事件发生时间间隔的离散程度为1/λ²。
累积分布函数：指数分布的累积分布函数F(x)为1-e^(-λx)，它表示在x时刻之前事件已经发生的概率。
与泊松分布的关系：指数分布与泊松分布密切相关。泊松分布描述的是在固定时间间隔内事件发生的次数，而指数分布描述的是两次连续事件之间的时间间隔。具体来说，如果随机变量X服从参数为λt的泊松分布，那么时间两次发生之间的"等待时间"Y就服从参数为λ的指数分布。

5.7 正态分布

正态分布（Normal Distribution），也称高斯分布（Gaussian Distribution），是统计学中一种非常重要的连续概率分布。它的形状呈钟形，因此人们又经常称之为钟形曲线（Bell Curve）。正态分布由两个参数决定：均值（Mean，通常记为μ）和标准差（Standard Deviation，通常记为σ）。

正态分布的特性

对称性：正态分布曲线关于其均值μ对称。
集中性：曲线的大部分面积（约68.27%）集中在均值μ左右的一个标准差σ范围内；约95.45%的面积在均值μ左右两个标准差2σ的范围内；而几乎全部面积（约99.73%）则集中在均值μ左右三个标准差3σ的范围内。
单峰性：正态分布曲线只有一个最高峰，位于均值μ处。
无限性：正态分布曲线在x轴上方，且x的取值范围为负无穷到正无穷。
概率密度函数的表达式：正态分布的概率密度函数（Probability Density Function, PDF）为

f(x)=2πσ1e−2σ2(x−μ)2

标准正态分布

标准正态分布（Standard Normal Distribution）是一种特殊的正态分布形式，其均值（μ）为0，标准差（σ）为1。这种分布形式在数学、物理、工程以及统计学等多个领域都有广泛的应用。

定义：标准正态分布是以0为均值、1为标准差的正态分布，通常记为N(0,1)。
性质：
- 对称性：标准正态分布曲线关于Y轴对称。
- 集中性：大部分数据点集中在均值附近，具体来说，有68.27%的数据点落在-1到+1的范围内，95.45%的数据点落在-2到+2的范围内，而99.73%的数据点则落在-3到+3的范围内。
- 单峰性：标准正态分布曲线只有一个最高点，即均值点。
- 无限性：虽然标准正态分布曲线在理论上是无限的，但在实际应用中，我们通常只关注某个范围内的数据点。
计算方法

对于服从正态分布的随机变量X，我们可以通过以下公式将其转换为标准正态分布的随机变量Z：

Z = (X - μ) / σ

其中，μ是随机变量X的均值，σ是随机变量X的标准差。通过这个公式，我们可以将任何正态分布的随机变量转换为标准正态分布的随机变量。

正态分布的应用

正态分布广泛应用于统计学、自然科学、社会科学、金融、工程等多个领域。以下是一些具体的应用场景：

统计推断：在样本量足够大时，很多统计量的分布都趋近于正态分布，这为统计推断提供了理论基础。
质量控制：在质量控制中，正态分布用于确定产品的合格范围，即控制图。
金融分析：在金融领域，很多资产的价格波动和收益率都近似服从正态分布，这为风险管理和投资组合优化提供了依据。
社会科学研究：在心理学、教育学等社会科学领域，很多测量数据也近似服从正态分布。

6.离散型随机变量函数的分布

函数变换：
- 当我们对离散型随机变量X进行某种函数变换，如Y = g(X)，则Y也是一个随机变量。
- Y的取值将取决于X的取值以及函数g的映射关系。
分布计算：
- 对于Y的每个可能取值y，我们需要计算P(Y = y)。
- 这通常涉及到对X的取值进行遍历，并找出所有使得g(X) = y的X的取值，然后将这些X取值的概率相加。
示例：
- 设随机变量X表示掷一枚均匀硬币正面朝上的次数（掷一次），则X的可能取值为0和1，对应的概率分别为0.5和0.5。
- 若定义Y = 1 - X，则Y的取值也为0和1，但对应的概率变为P(Y = 0) = P(X = 1) = 0.5，P(Y = 1) = P(X = 0) = 0.5。

7.连续型随机变量函数的分布

函数变换 ：
- 当对连续型随机变量X进行某种函数变换，如Y = g(X)，则Y也是一个随机变量。
- Y的取值范围将取决于g(X)的映射关系以及X的取值范围。
分布函数与概率密度函数 ：
- 对于连续型随机变量Y，其分布函数F_Y(y)可以通过对X的分布函数F_X(x)进行变换得到，即F_Y(y) = P(Y ≤ y) = P(g(X) ≤ y)。
- Y的概率密度函数f_Y(y)可以通过对F_Y(y)求导得到，即f_Y(y) = dF_Y(y)/dy。但在实际操作中，更常用的是通过X的概率密度函数f_X(x)和g(X)的逆函数（如果存在）来计算f_Y(y)。
计算步骤 ：
- 首先确定X的取值范围和概率密度函数f_X(x)。
- 然后确定函数g(X)及其逆函数（如果存在）。
- 接着计算Y的取值范围，这通常涉及到对g(X)的映射关系进行分析。
- 最后利用X的概率密度函数f_X(x)和g(X)的逆函数来计算Y的概率密度函数f_Y(y)。这通常涉及到对f_X(x)进行变量替换和积分运算。

多维随机变量及其分布

1.二维随机变量及其分布

分布函数：

设(X,Y)是二维随机变量，对于任意实数x,y，二元函数F(x,y)=P{(X≤x)∩(Y≤y)}称为二维随机变量(X,Y)的分布函数，或称为随机变量X和Y的联合分布函数。分布函数F(x,y)在(x,y)处的函数值就是随机点(X,Y)落在以(x,y)为顶点而位于该点左下方的无穷矩形域内的概率。

分布函数F(x,y)具有以下性质：
- F(x,y)是变量x和y的不减函数。
- 0<F(x,y)<1，且对于任意固定的y，F(−∞,y)=0；对于任意固定的x，F(x,−∞)=0；F(−∞,−∞)=0，F(+∞,+∞)=1。
- F(x+0,y)=F(x,y)，F(x,y+0)=F(x,y)，即F(x,y)关于x右连续，关于y也右连续。
二维离散型随机变量：

如果二维随机变量(X,Y)全部可能取到的不相同的值是有限对或可列无限多对，则称(X,Y)是离散型的随机变量。

设二维离散型随机变量(X,Y)所有可能取的值为(xi,yj)，i,j=1,2,...，记P{X=xi,Y=yj}=pij，i,j=1,2,...，则由概率的定义有∑∑pij=1，称P{X=xi,Y=yj}=pij，i,j=1,2,...为二维离散型随机变量(X,Y)的分布律，或随机变量X和Y的联合分布律。
二维连续型随机变量：

对于二维随机变量(X,Y)的分布函数F(x,y)，如果存在非负可积函数f(x,y)使对于任意x,y有∫∫f(u,v)dudv=F(x,y)，则称(X,Y)是连续型的二维随机变量，函数f(x,y)称为二维随机变量(X,Y)的概率密度，或称为随机变量X和Y的联合概率密度。

概率密度f(x,y)具有以下性质：
- f(x,y)≥0。
- ∫∫f(x,y)dxdy=F(+∞,+∞)=1。
- 设G是xOy平面上的区域，点(X,Y)落在G内的概率为P{(X,Y)∈G}=∫∫f(x,y)dxdy。
- 若f(x,y)在(x,y)连续，则有∂²F(x,y)/∂x∂y=f(x,y)。

2.条件分布

条件分布是指在给定某个随机变量取特定值的条件下，另一个随机变量的分布。具体来说，如果我们有两个随机变量X和Y，并且我们想知道在Y取某个特定值y的条件下，X的分布情况，那么我们就可以计算X在Y=y的条件下的条件分布。条件分布可以分为离散型条件分布和连续型条件分布两种。

离散型条件分布：

对于二维离散型随机变量(X,Y)，如果P(Y=yj)>0，那么X在Y=yj的条件下的条件分布列可以定义为：

P(X=xi∣Y=yj)=P(X=xi,Y=yj)P(Y=yj)

这表示在Y=yj的条件下，X取xi的概率。

连续型条件分布：

对于二维连续型随机变量(X,Y)，由于P(X=x)=0和P(Y=y)=0对于所有x和y都成立，因此不能直接用条件概率公式来计算条件分布。但是，我们可以使用条件概率密度函数来描述条件分布。

设X和Y的联合概率密度为f(x,y)，边缘概率密度为fX(x)和fY(y)。那么，对于所有使fY(y)>0的y，X在Y=y的条件下的条件概率密度函数可以定义为：

fX∣Y(x∣y)=f(x,y)fY(y)

这表示在Y=y的条件下，X在x附近的概率密度。