随机变量及其分布

定义

1.随机变量是一个从样本空间（所有可能结果的集合）到实数集的函数。样本空间中的每个结果都对应于随机变量的一个值。随机变量的值可以是离散的，也可以是连续的。随机变量通常用大写字母表示，如 X、Y 或 Z。

2.随机变量和事件的联系

（1）定义事件：

事件可以定义为随机变量取特定值的集合。一般用{X=?}表示。
例如，如果随机变量 X 表示掷骰子的结果，那么事件 "掷得奇数" 可以表示为 {X=1} 或 {X=3}或 {X=5}。

（2）使用随机变量描述事件：

随机变量的值可以定义复杂的事件。
例如，事件 "掷骰子的结果大于4" 可以表示为 {X>4}，其中 X 是随机变量。
例如，掷硬币的结果为正面、反面，在数学中不方便描述，可以将正面映射为数字1，反面映射为0，那么事件"掷出正面"可以表示为{X=1}，事件"掷出反面"可以表示为{X=0}。

（3）概率分布：

随机变量的概率分布描述了它取每个可能值的概率。这个分布可以用来计算事件的概率。在随机变量表示的事件前加上P来表示：P{X=?}或者P(X=?)。
例如，随机变量 X 的概率质量函数（PMF）或概率密度函数（PDF）可以用来计算 P(X=k) 或 P(a<X<b)。

离散型随机变量及其概率分布

1.离散型随机变量的特点：

可数性：随机变量的取值是可数的，即有限个或可数无限个。
离散性：取值之间有"间隔"，不是连续变化的。
概率分布：每个取值都有一个特定的概率，且所有取值的概率之和等于1。

2.离散型随机变量的概率分布：

离散型随机变量的概率分布通常由概率质量函数（Probability Mass Function, PMF）描述。PMF 定义了随机变量每个可能取值的概率。

3.概率质量函数（PMF）：

对于离散型随机变量 X，其概率质量函数为

，其中 x* 是 X 可能取的值。PMF 满足以下条件：

非负性：对于所有的 x，有 P(X=x)≥0。
归一性：所有可能取值的概率之和等于1，即

4.例子

假设由5个黑球，3个白球，每次取一个球不放回，直到取到黑球为止，X为取到白球的数量，求取到黑球的概率。
解：
根据题意，取到黑球的事件分为以下几种情况：

（1）第一次就取到黑球，那么取到白球的数量为0，记为{X=0}

（2）第一次取到白球，第二次取到黑球，那么取到白球的数量为1，记为{X=1}

（3）第一、二次取到白球，第三次取到黑球，那么取到白球的数量为2，记为{X=2}

（4）前三次都取到白球，第四次取到黑球，那么取到白球的数量为3，记为{X=3}

（5）白球总共有3个，不会出现4个白球，所以情况列举结束。

根据上述事件分别计算取到黑球的概率：
第一种情况：
从8个球中直接取到黑球

第二种情况：
先从8个球中取到白球，再从剩下的7个球中取到黑球

第三种情况：
第一次从8个球中取到白球，第二次从剩下的7个球中取到白球，第三次从剩下的6个球中取到黑球

第四种情况：
第一次从8个球中取到白球，第二次从剩下的7个球中取到白球，第三次从剩下的6个球中取到白球，第四次从剩下的5个球中取到黑球

画出概率分布表：

X	0	1	2	3
P	5/8	15/56	5/56	1/56

验证总概率：

连续型随机变量及其概率密度函数

1.连续型随机变量是取值可以是某个区间内任意实数的随机变量。与离散型随机变量不同，连续型随机变量的取值是连续的，不可数的。连续型随机变量的概率分布通常由概率密度函数（Probability Density Function, PDF）描述。

2.例子统计了99年的降水量，其中

降水量在670-770的有1年(频率：0.01)，

降水量在770-870的有8年(频率：0.081)，

降水量在870-970的有9年，

降水量在970-1070的有19年，

降水量在1070-1170的有20年，

降水量在1170-1270的有18年，

降水量在1270-1370的有10年，

降水量在1370-1470的有7年，

降水量在1470-1570的有4年，

降水量在1570-1670的有3年。

频率密度直方图：(纵坐标为频率/组距)

说明：频数：1年、8年、9年、...；频率：频数/总年数；组距：年度区间的跨度，如：770-670=100；频率密度：频率/组距
频率密度直方图性质：（1）每个小长方形面积等于该组的频率，即频率密度x组距=频率/组距x组距=频率（2）所有长方形面积之和为1 （3）介于x=a、x=b之间的面积近似于(a,b]的频率（4）当组距取得很小，形成一条光滑曲线，该曲线可看作概率密度函数

3.连续型随机变量的特点：

连续性：随机变量的取值是连续的，可以在一个或多个区间内取任意值。
不可数性：取值是不可数的，即有无限多个可能的取值。
概率分布：每个取值区间都有一个特定的概率，且整个取值范围的概率密度函数积分等于1。
连续型的随机变量取值在任意一点的概率都是0。在函数曲线上某个点的概率其实是取的该点附近值的大小。
连续情况下，端点无所谓。P{a≤x≤b}=P{a＜x＜b}

4.概率密度函数

对于一维实随机变量X，如果存在非负可积函数f(x)，使得对于任意实数x，

，则称f(x)为随机变量X的概率密度函数。

密度函数f(x) 具有下列性质：

（1）非负性：对于所有的 x，有

（2）归一性：概率密度函数在整个取值范围的积分等于1，即

概率密度函数的积分其实就是求曲线在某个区间内的面积。

5.例子

假设密度函数

求k的值。

解：根据概率密度函数

可知，在 $0,2$ 区间以外的函数值都为0，所以

计算定积分

由于

所以

得出

分布函数

分布函数是描述随机变量取值分布情况的函数，无论是离散型随机变量还是连续型随机变量，都可以通过分布函数来描述其概率特性。分布函数通常指的是累积分布函数（Cumulative Distribution Function, CDF），用 F(x) 表示。

累积分布函数（CDF）

对于随机变量 X，其累积分布函数 F(x) 定义为随机变量 X 取值小于或等于 x 的概率：

CDF 的性质

1.非减性：随着 x 的增加，F(x) 是非减的，即 F(x1)≤F(x2)对于所有的 x1≤x2 成立。

2.范围：F(x)的值域在 0 到 1 之间，即 0≤F(x)≤1。

3.边界条件：

4.右连续：F(x) 在任意点 x 都是右连续的。对于离散型随机变量，F(x) 在任意点 x 是右连续，对于连续型随机变量，F(x) 在任意点 x 是连续的。

5.公式

6.对于不同类型随机变量的CDF

（1）离散型随机变量：

对于离散型随机变量，CDF 是阶梯式的，每个可能的取值点都有一个跳跃。
累积分布函数 F(x) 可以表示为：

（2）连续型随机变量：

对于连续型随机变量，CDF 是概率密度函数（PDF）的积分，并且是连续且光滑的（除非在某些点上有跳跃）。
累积分布函数 F(x) 可以表示为：

分布函数其实就是求曲线在某个区间内的面积。

7.例1

假设概率分布表如下：

X	-1	2	3
P	1/2	1/3	1/6

求分布函数F(x)
解：
分布函数F(x)的x取值范围为 $-\infty,+\infty$
根据概率分布表划分x的取值范围：
当x<-1：

随机变量X比x还要小，在分布表中没有对应的概率，表示是不可能事件，所以概率为0
当-1≤x<2：

在当前x的取值范围内，在分布表中有x=-1的概率，所以F(x)就是x=-1的概率
当2≤x<3:

在x的取值范围内随机变量X比x要小的点有-1、2，所以是-1、2点概率之和
当3≤x：
所以分布函数为：

从以上例子可以看出，离散型随机变量分布函数就是找x的右区间，然后将小于右区间值的概率相加。

8.例2

假设函数：

求分布函数F(x)
解：
分布函数F(x)的x取值范围为 $-\infty,+\infty$
当x<0时：

当0≤x<2时：

当2≤x时：

所以分布函数：

常见的分布

0-1分布

1.0-1分布，也称为伯努利分布，是一种特殊的离散概率分布。它描述了在单次伯努利试验中只有两种可能结果的随机变量，通常这两种结果被称为"成功"和"失败"。

对于伯努利随机变量 XX，其概率质量函数为：

其中：

x 可以是0或1。
p 是成功（x=1）的概率。
1−p 是失败（x=0）的概率。

用分布表来表示：

X	1	0
P	p	1-p

2.0-1分布式伯努利试验只做一次的分布函数，如果是n重伯努利试验，分布函数则为（详见事件概率的伯努利公式）：

几何分布

1.几何分布（Geometric Distribution）是描述在成功之前需要进行的试验次数的离散型概率分布。具体来说，几何分布描述的是在独立重复的伯努利试验中，首次成功所需的试验次数。

如果随机变量 X 表示获得第一次成功所需的试验次数，那么几何分布的概率质量函数为：

其中：

k 是获得第一次成功时试验的次数，k=1,2,3,...
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

简单理解：在试验第k次时试验成功，那么前边k-1次试验都没有成功，所以几何分布表示前边没成功概率的次数

乘以当前成功的概率。

二项分布

1.二项分布的概率质量函数（PMF）：如果随机变量 X 表示 n 次伯努利试验中成功的次数，那么 X 服从参数为 n 和 p 的二项分布，记作 X∼B(n,p)。二项分布的概率质量函数为：

其中：

k 是成功的次数，k=0,1,2,...,n。
是组合数，表示从 n 次试验中选择 k 次成功的不同方式的数目，计算公式为
p 是单次试验成功的概率。
1−p 是单次试验失败的概率。

其实就是事件概率中的伯努利公式。

2.k的最大可能值：

(1)k 取最接近 (n+1)p 的整数:

(n+1)p不为整数，则取最接近 (n+1)p 的整数为最大值。
(n+1)p为整数，则取 (n+1)p 和(n+1)p-1都是最大值。

泊松分布

1.泊松分布（Poisson Distribution）是描述在固定时间或空间内事件发生次数的离散型概率分布。它适用于事件发生的概率较小且事件之间相互独立的情况。

2.设随机变量 X 服从泊松分布，其参数为 λ，表示单位时间或空间内事件发生的平均次数。则 X 的概率质量函数（PMF）为：

其中:

k 是事件发生的次数，k=0,1,2,...。
λ 是单位时间（或单位面积）内事件平均发生的次数。

3.泊松分布在实际中有广泛的应用，例如：

交通流量分析：描述一段时间内通过某个路口的车辆数。
电话呼叫中心：预测一定时间内接到的电话数量。
生态学：模拟某段时间内到达的候鸟数量。
放射性物质：描述一定时间内放射性物质发射粒子的数量。

当二项分布的试验次数 n 很大而成功概率 p 很小时，二项分布可以用泊松分布来近似。具体来说，如果 n 足够大且 np=λ 保持不变，则二项分布 B(n,p)可以用泊松分布 P(λ)来近似。

均匀分布

1.在连续均匀分布中，所有可能的结果是连续的，并且在相同长度间隔的分布概率是相同的。

2.均匀分布的概率密度函数（PDF）：

对于连续型随机变量 X，如果它服从区间 $a,b$ 上的均匀分布，其概率密度函数为：

其中：

a 是区间的下界。
b 是区间的上界。
b−a 是区间的长度。

为什么f(x)=1/(b-a)?

根据概率密度函数定义可知，在整个取值范围的积分等于1，其积分就是求曲线面积，f(x)在曲线中相当于高，(b−a)相当于曲线的宽，所以曲线面积

2.累积分布函数（CDF）：

推导：
当x<a：
x不在 $a,b$ 区间内

当a≤x<b时：

当b≤x时：

指数分布

1。指数分布（Exponential Distribution）是一种连续概率分布，它描述了在两个连续事件发生之间的时间间隔，这两个事件是完全随机的，且具有恒定的平均发生率。指数分布通常用于模拟独立随机事件发生的时间间隔，如电话呼叫的到达时间、放射性物质的衰变时间等。

2.概率密度函数

其中：

x 是随机变量，表示事件发生的时间间隔。
λ 是率参数，表示单位时间内事件发生的平均次数。

3.分布函数

推导：
当x≥0：

当x<0：

正态分布

正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是连续概率分布的一种。它是统计学中最重要的概率分布之一，因为许多自然和社会现象的分布都近似于正态分布。正态分布在自然科学和社会科学的许多领域都有应用，包括生物学、物理学、经济学和社会科学，记作：