概率论与数理统计总复习

复习课本:中科大使用的教辅《概率论和数理统计》缪柏其、张伟平版本

目录

0.部分积分公式

1.容斥原理

2.条件概率

3.全概率公式

4.贝叶斯公式

5.独立性

6.伯努利分布(两点分布)

7.二项分布

8.帕斯卡分布(负二项分布)

9.泊松(Poisson)分布

10.分布函数

11.连续型随机变量,概率密度函数

12.均匀分布

13.指数分布

14.正态分布

15.随机变量函数(一种变换)

16.多维随机变量

17.边际分布

18.条件分布

19.数学期望

20.中位数和众数

21.方差和矩

22.协方差

23.熵

24.大数定理和中心极限定理

25.统计量

26.χ²分布

27.t分布

28.F分布

29.矩估计

30.最大似然估计

31.优良性准则

32.置信区间和置信系数

33.枢轴变量法

34.大样本方法

35.假设检验概念

36.正态总体参数检验

37.拟合优度检验


0.部分积分公式

函数:

性质:

函数:

性质:

1.容斥原理

2.条件概率

3.全概率公式

是样本空间的一个划分(完备事件群),则

例1.20

4.贝叶斯公式

是样本空间的一个划分(完备事件群),则

即因果关系互换

例1.24

5.独立性

读完18后

对于随机变量X,Y的联合分布:

则X,Y相互独立

同理:

见例3.16

读22后

若非退化的X,Y存在方差,X,Y不相关的等价命题:

6.伯努利分布(两点分布)

满足0-1分布

7.二项分布

设离散型随机变量X所有可能取值为{0,1,...,n},0<p<1

读19后

读25后

为来自总体的简单样本,统计量的抽样分布:

读36后

比例p的检验

为来自总体的简单样本,p的常见假设有三种:

其中为(0,1)已知常数

8.帕斯卡分布(负二项分布)

取正整数值,其分布率为:

其中r为正整数,0<p<1,记为

记为,代表【前k-1次恰有r-1次成功,且第k次成功】的概率

见例2.8

9.泊松(Poisson)分布

记为

泊松逼近定理

设一族随机变量,若当时,,则

时即可应用

例2.15

读19后

读34后

从泊松分布总体中抽取一个简单随机样本,求的区间估计

由中心极限定理以及上面的期望方差,有枢轴变量:

得:

同理,样本方差也可进入枢轴变量:

10.分布函数

11.连续型随机变量,概率密度函数

若存在非负函数,对于任意x

则X为连续性随机变量,f(x)为概率密度函数,

记为

12.均匀分布

记为

读19后

13.指数分布

其中

记为

性质:无记忆性

读19后

读20后

矩母函数

读34后

从指数分布总体中抽取一个简单随机样本

求均值置信区间

枢轴变量:

同理n充分大时,可以用中心极限定理

枢轴变量:

14.正态分布

记为

时为标准正态分布,此时的记为,分布函数记为

性质:

对于一般正态分布的F(x),有变换,称为标准化变换。

读19后

读20后

矩母函数

读28后

如果随机变量,c都为常数,则独立的正态随机变量的线性组合服从正态分布:

特殊:c都为1/n,则T为样本均值

读33后

正态总体均值的置信区间为,其中误差界限d:

已知时:

枢轴变量:

未知时:

枢轴变量:

n>30,未知,总体不必为正态:

使用中心极限定理:为总体标准差的相合估计

均值方差都未知时,正态分布方差的置信区间估计

枢轴变量:

两个独立正态分布总体,分别服从

求均值差置信系数为的置信区间

已知时:

枢轴变量:

则:

未知时:

枢轴变量:

其中

则:

两个正态总体方差比的区间估计:

两个独立正态分布总体,分别服从,求的区间估计

枢轴变量:

则:

15.随机变量函数(一种变换)

分布函数

,则随机变量Y的分布函数

密度函数变换公式

是严格单调的且反函数可导,则随机变量Y仍为连续性随机变量,且有概率密度函数

其中

如果不是严格单调函数,求解思路为:

先求目标转换值的分布函数(难点在积分限,搞出原值的范围),再求导得到它的概率密度函数

例2.26,2.27

看完18后

二元密度函数的变换

其中为一维随机变量

即有,对应的反函数l

对于常见的Z=X+Y变换,取Z'=X,则雅可比行列式值为1,转换为卷积形式

例3.20,3.21

最大值和最小值的分布

设X和Y相互独立,求max{X,Y}和min{X,Y}的分布

对于密度分布

例3.28

读25后

为来自总体的简单样本,统计量的抽样分布:

由上文知识可知:,可知T的分布函数:

概率密度函数:

读31后

为来自总体的简单样本,证明的最大似然估计不是的无偏估计。

则做个修正:

的无偏估计

读19后

X有分布函数,变换

分别为离散型和连续型的情况

16.多维随机变量

对于试验结果需要两个及以上随机变量来描述。

称为n维随机变量 ,简记为

联合分布函数

设(X,Y)为二维随机变量,称二元函数

为(X,Y)的分布函数(联合分布函数)

ps:类似于落在矩形域上

二维连续型随机变量

若f(x,y)在该点连续,则

二元正态分布

其中

记为

分布

读22后

17.边际分布

设(X,Y)的联合分布函数为F(x,y),则其分量X和Y的分布函数称为F的边缘分布

因为相关性的存在,边缘分布律不能决定联合分布律。

求个导:

边际概率密度函数

例3.9

18.条件分布

,那么称

为给定Y=y下随机变量X的条件概率密度函数

可得出连续性随机变量的贝叶斯公式的密度函数形式:

例3.12

19.数学期望

离散型:

分布律为

如果(绝对收敛)

那么数学期望

例4.2

连续型:

,如果 (即

则数学期望

性质:

如果随机变量相互独立

变换性质见15

条件数学期望

是x的函数(一个值)

不固定X的值,那么这就是随机变量X的函数。(是随机变量)

条件期望的平滑公式(全期望公式)

例4.12

20.中位数和众数

中位数为m,有

中位数可能不唯一,但当X的概率密度函数f(x)>0时,中位数唯一,且:

众数,有

X为离散型,概率质量函数最大时对应的随机变量X值

X为连续型,f(x)达到最大时的x值

众数可能不唯一。

唯一的话,称为单峰。

例4.15

p分位数

设0<p<1,是随机变量X的p分位数,是指

例4.16

21.方差和矩

随机变量X是平方可积的,即

分别为方差和标准差

性质:

即有

马尔科夫不等式

推论:切比雪夫不等式

例4.23

称为X关于c的k阶矩

为随机变量的k阶原点矩

为随机变量的k阶中心矩

其中k为正整数,也要有必要的收敛(k方可积)

计算有关正态分布矩:

矩母函数

可以生成中心矩

22.协方差

设X和Y平方可积,则有协方差

此时即有:

性质:

若X,Y相互独立,则

相关系数

相关系数不能反映随机变量之间具有某种函数关系,只是刻画线性相关程度

例4.48

23.熵

设X为离散型随机变量,分布律:

若X为连续型随机变量,概率密度函数

性质:对于常数c

给定期望和方差,具有最大熵的连续型随机变量是正态分布

给定期望,具有最大熵的取值于的连续型随机变量是指数分布

24.大数定理和中心极限定理

依概率收敛

是一串随机变量序列,为随机变量,如果对,有

则称随机变量序列依概率收敛于随机变量,记为

依分布收敛

是一串随机变量序列,为随机变量,

则称弱收敛于F,也称随机变量序列依分布收敛于随机变量,记为

两者关系:

依概率收敛能推出依分布收敛;

而依分布收敛只有收敛于常数c,才能推出依概率收敛于c

大数定律

是一串随机变量序列,他们有相同期望和方差

伯努利大数定律:

是0-1分布,

林德伯格------莱维中心极限定理

是一串随机变量序列,他们有相同期望和方差

亦可写为:

其中均值

也是说部分和标准化后的分布函数近似于标准正态分布函数

例4.42

棣莫弗------拉普拉斯中心极限定理

是一串随机变量序列,0<p<1,且,则对于任意实数x

np较小时,可以用泊松分布逼近二项分布

np较大时,可以用正态分布逼近二项分布

例4.40

25.统计量

完全由样本决定的量称为统计量

样本均值:

样本方差:

样本矩:

样本k阶原点矩:

样本k阶中心矩:

样本相关系数:

次序统计量:

样本中位数:

极值:

分别为样本的极小值和极大值,他们之差为极差(大减小)

抽样分布:

为一个样本,统计量的分布称为抽样分布。

抽样分布不同于样本分布!

例子可见7,15

26.χ²分布

设样本为来自标准正态总体的一个简单随机样本,称:

服从自由度为n的**分布** ,记为:

概率密度函数:

性质:

,则容易算得

,且X,Y独立,则

结论:

为样本方差

,服从,则:

卡方分布图形特征如下:

该函数n=1,2时曲线单调下降趋于0,当n≥3时有单峰

分布在第一象限内,卡方值都是正值,呈正偏态(右偏态),随着自由度增大,分布趋近于正态分布。

27.t分布

,且X,Y相互独立,称

服从自由度为n的t分布 ,记为

概率密度函数:

n=1时,为柯西分布,此时

性质:

,则当n≥2时,由对称性可得;当n≥3时,

时,分布的概率密度函数趋于标准正态分布概率密度函数

结论:

为样本标准差

,且两组样本相互独立,则:

其中

为X样本组的样本方差

用于比较两组样本

t分布图形特性:

‌**t分布的图形特征主要包括以下几个方面**‌

  1. 单峰分布‌:t分布是一个单峰分布,以0为中心,左右对称。
  2. 尾部较厚 ‌:与标准正态分布相比,t分布的尾部较厚,这意味着它对极端值(异常值)更敏感。
  3. 自由度的影响‌:t分布的图形与自由度(df)有关。自由度越小,t分布的峰部越矮,尾部越高;随着自由度的增加,t分布逐渐接近标准正态分布;当自由度趋于无穷大时,t分布趋近于标准正态分布。

28.F分布

,且X,Y相互独立,称

为服从自由度为m,n的F分布 ,记为

概率密度函数:

性质:

(1)若,则

(2)若,则

(3)

结论:

,且两组样本相互独立,则:

用于比较两组样本方差

F分布图形特性:

  1. 非负性: F分布的取值范围是非负的,即 F ≥ 0。这是因为卡方变量本身是非负的,并且自由度也都是正数。

  2. 偏态性: F分布是右偏的,其偏度取决于它的自由度。当分子自由度d1较小,分母自由度d2较大时,偏度较大;反之,当分子自由度d1较大,分母自由度d2较小时,偏度较小。随着自由度的增大,F分布逐渐趋近于对称分布。

  3. 单峰性: F分布具有单峰性,即只有一个峰值。峰值的位置取决于它的自由度。

4.其中一个自由度v2趋近无穷时,F分布趋近于v1的卡方分布。

29.矩估计

离散型略

连续型:

由大数定律,样本矩依概率收敛到总体矩。

应用中会做一点修正,尽量用低阶矩

样本矩是总体矩的渐近无偏估计

30.最大似然估计

样本X有联合概率密度分布:

固定x时,看做与参数有关的函数,称为似然函数

估计在哪些之下,似然函数能取最大。

拆成多个 ,形成积形式的联合概率密度函数。

对数似然函数

再求驻点

若似然函数的严格单调的,则最大值在边界取到。

31.优良性准则

若对任何可能的

的一个无偏估计量

证明样本方差的无偏估计

而样本标准差 不是样本总体标准差 的无偏估计:

S需要乘上一个修正系数。

有效性:

都是总体参数的无偏估计,方差存在,若:

至少存在一个,使得上式不等号成立,则称 更有效

算术平均比加权平均更有效

大多数情况,最大似然估计比矩估计更有效,但是矩估计显然更容易得到。

例6.21

克拉默------拉奥方差下界(最小方差无偏估计,MVUE)

其中为费舍尔信息函数

例6.22,23,25

相合性

样本量

则称的相合估计量。

例6.26,27

渐近正态性

若当样本量 时有

则称估计量有渐近正态性

一般情况下,矩估计和最大似然估计都有渐近正态性

都分别是的相合估计

32.置信区间和置信系数

是从总体中抽取出的一个简单随机样本,两个统计量满足

则给定一个小正数,若

称作参数置信区间置信系数

越小(置信系数越高),置信区间越大(精度越低)

33.枢轴变量法

设感兴趣的参数为

(1)找一个的良好点估计,一般为最大似然估计

(2)构造一个函数为枢轴变量,其中为统计量,使得他的分布已知。

一般为正态分布,χ²分布,t分布,F分布

(3)

要能改写为:

(4)取分布位数 和上位数

(5)则置信系数为的置信区间为

34.大样本方法

利用中心极限定理,来建立合适的枢轴变量

设事件A在每次试验中发生的概率为p,作n次独立试验,以记事件A发生的次数,求p的置信区间。当n充分大时,由中心极限定理,得一个枢轴变量:

即可得:

解二次方程可得p的区间,称为得分区间。

其中右侧的

当n很大时,上式可简化为:

如果要求区间宽度为w(即误差界限为w/2)

可取

例7.8

一般总体均值的置信区间

可见14的后面

35.假设检验概念

对样本所做出的统计假设进行检查的方法和过程称为假设检验

一般我们 ++认为正确++ 的命题称为原假设

"对立假设"为备择假设

两点假设:

双侧假设:

单侧假设:

接受域A,拒绝域D

在A中则接收原假设(有一个可接受的范围),在D中则拒绝原假设

中间有临界值C

当然有范围就要有接受的程度,接受范围越小,精度越高,"更难接受",概念见下:

功效函数:

设总体为是根据样本对假设所做的一个检验

在检验被否定

为检验的功效函数

检验水平:

要让被拒绝的概率尽可能小,确保决策贴近事实,容错最大概率为

此时检验的水平为

| 决策 | 事实 ||
| 决策 | 成立 | 成立 |
| 不拒绝 | 正确 | 第二类错误 |

拒绝 第一类错误 正确

犯第一类错误的概率:

犯第二类错误的概率:

要减少犯第一类错误的概率,必然会增加犯第二类错误的概率。

如果仅考虑控制第一类错误的概率,而不涉及犯第二类错误概率所得到的检验,称为显著性检验

检验方法:

(1)求出未知参数的一个较优的点估计,如最大似然估计

(2)寻找一个检验统计量

使得时,T的分布已知(如

从而查表得到这个分布的分位数,作为检验的临界值。

(3)根据备择假设实际意义来寻找合适的拒绝域。

(4)根据给出的样本值,计算检验统计量,若落在拒绝域中,则可拒绝原假设,反之不能拒绝(显著性检验下就是接受)

36.正态总体参数检验

真的和之前枢轴变量挺像的,感觉就是前一个是正向思维,这个是反证思维

直接放图,枢轴变量就是对应我们的检验统计量

比例p的检验见7

37.拟合优度检验

皮尔逊χ²检验

如果原假设成立,那么当样本量趋于无穷时,Z的分布趋于自由度为k-1的χ²分布,即

例9.1

列联表检验

见例9.8

相关推荐
诚威_lol_中大努力中5 小时前
(概率论)区间估计 和 置信区间 、 假设检验
概率论
Arthur古德曼5 小时前
【概率论与数理统计】第二章 随机变量及其分布(1)
概率论·随机变量·离散型·连续型·夏明亮·分布
Schwertlilien6 小时前
模式识别-Ch2-高斯下判别函数
线性代数·矩阵·概率论
正是读书时21 小时前
矩母函数(MGF)
概率论
Schwertlilien2 天前
模式识别-Ch3-贝叶斯估计
人工智能·机器学习·概率论
相醉为友2 天前
概率论常用的分布公式
概率论
Schwertlilien3 天前
模式识别-Ch3-极大似然估计
人工智能·机器学习·概率论
heardlover4 天前
概率基本概念 --- 离散型随机变量实例
概率论
Arthur古德曼5 天前
【概率论与数理统计】第二章 随机变量及其分布(2)
概率论·随机变量·离散型·连续型·夏明亮