《概率论与数理统计》学渣笔记

文章目录

[1 随机事件和概率](#1 随机事件和概率)
- [1.1 古典概型求概率](#1.1 古典概型求概率)
- - 随机分配问题
  - 简单随机抽样问题
- [1.2 几何概型求概率](#1.2 几何概型求概率)
- [1.3 重要公式求概率](#1.3 重要公式求概率)
[2 一维随机变量及其分布](#2 一维随机变量及其分布)
- [2.1 随机变量及其分布函数的定义](#2.1 随机变量及其分布函数的定义)
- - 离散型随机变量及其概率分布（概率分布）
  - 连续型随机变量及其概率分布（分布函数）
- [2.2 离散型分布](#2.2 离散型分布)
- - [0-1分布 X ∼ B ( 1 , p ) X \sim B(1,p) X∼B(1,p)](#0-1分布 X ∼ B ( 1 , p ) X \sim B(1,p) X∼B(1,p))
  - [二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)](#二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p))
  - [几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p)](#几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p))
  - [超几何分布 X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N)](#超几何分布 X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N))
  - [泊松分布 X ∼ P ( λ ) X\sim P(λ) X∼P(λ)](#泊松分布 X ∼ P ( λ ) X\sim P(λ) X∼P(λ))
  - 离散型→离散型
- [2.3 连续型分布](#2.3 连续型分布)
- - [均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)](#均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b))
  - [指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ)](#指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ))
  - [正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2)](#正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2))
  - 连续型→离散型
- [2.4 混合型分布](#2.4 混合型分布)
- - 连续型→连续型（或混合型）
[3 多维随机变量及其分布](#3 多维随机变量及其分布)
- [3.1 定义](#3.1 定义)
- [3.2 求联合分布](#3.2 求联合分布)
- - 二维均匀分布与二维正态分布
- [3.3 求边缘分布](#3.3 求边缘分布)
- [3.4 求条件分布](#3.4 求条件分布)
- [3.5 判独立](#3.5 判独立)
- [3.6 用分布](#3.6 用分布)
- 3.7（离散型，离散型）→离散型
- 3.8（连续型，连续型）→连续型
- 3.10（离散型，连续型）→连续型【全集分解】
- [3.11 离散型→（离散型，离散型）](#3.11 离散型→（离散型，离散型）)
- [3.12 连续型→（离散型，离散型）](#3.12 连续型→（离散型，离散型）)
- [3.13 （离散型，离散型）→（离散型，离散型）](#3.13 （离散型，离散型）→（离散型，离散型）)
- [3.14 （连续型，连续型）→（离散型，离散型）](#3.14 （连续型，连续型）→（离散型，离散型）)
- [3.15 （离散型，连续型）→（离散型，离散型）](#3.15 （离散型，连续型）→（离散型，离散型）)
[4 数字特征](#4 数字特征)
- [4.1 数学期望](#4.1 数学期望)
- [4.2 方差](#4.2 方差)
- [4.3 亚当夏娃公式](#4.3 亚当夏娃公式)
- [4.4 常用分布的期望和方差](#4.4 常用分布的期望和方差)
- [4.5 协方差](#4.5 协方差)
- [4.6 相关系数](#4.6 相关系数)
- [4.7 独立性与不相关性的判定](#4.7 独立性与不相关性的判定)
- [4.8 切比雪夫不等式](#4.8 切比雪夫不等式)
[5 大数定律与中心极限定理](#5 大数定律与中心极限定理)
- [5.1 切比雪夫大数定律（均值依概率收敛到期望）](#5.1 切比雪夫大数定律（均值依概率收敛到期望）)
- [5.2 伯努利大数定律（频率依概率收敛到概率）](#5.2 伯努利大数定律（频率依概率收敛到概率）)
- [5.3 辛钦大数定律（均值依概率收敛到期望）](#5.3 辛钦大数定律（均值依概率收敛到期望）)
- [5.4 中心极限定理（n足够大时，均收敛于正态分布）](#5.4 中心极限定理（n足够大时，均收敛于正态分布）)
[6 统计量及其分布](#6 统计量及其分布)
- [6.1 统计量](#6.1 统计量)
- [6.2 标准正态分布分布的上α分位数](#6.2 标准正态分布分布的上α分位数)
- [6.3 卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)](#6.3 卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n))
- [6.4 t分布 t ∼ t ( n ) t\sim t(n) t∼t(n)](#6.4 t分布 t ∼ t ( n ) t\sim t(n) t∼t(n))
- [6.5 F分布 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)](#6.5 F分布 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2))
- [6.6 正态总体下的常用结论](#6.6 正态总体下的常用结论)
[7 参数估计与假设检验](#7 参数估计与假设检验)
- [7.1 矩估计](#7.1 矩估计)
- [7.2 最大似然估计（MLE）](#7.2 最大似然估计（MLE）)
- [7.3 常见分布的矩估计量和最大似然估计量](#7.3 常见分布的矩估计量和最大似然估计量)
- [7.4 无偏性：求期望](#7.4 无偏性：求期望)
- [7.5 有效性：比方差，方差越小越有效](#7.5 有效性：比方差，方差越小越有效)
- [7.6 一致性（相合性）：大数定律](#7.6 一致性（相合性）：大数定律)
- [7.7 区间估计](#7.7 区间估计)
- [7.8 假设检验](#7.8 假设检验)
- - 选择检验统计量
- [7.9 两类错误](#7.9 两类错误)
- - 第一类错误：弃真（直接算落入拒绝域的概率）
  - 第二类错误：取伪（直接算落入收敛域的概率）

1 随机事件和概率

1.1 古典概型求概率

在古典概型中，样本空间中的每个基本事件发生的概率是相同的。如果样本空间中有 n n n 个可能的基本事件，而感兴趣的事件 A A A 包含其中的 m m m 个基本事件，则事件 A A A 发生的概率 P ( A ) P(A) P(A) 可以表示为：

P ( A ) = 事件 A 包含的基本事件数样本空间Ω中的基本事件总数 = m n \boldsymbol{P(A) = \frac{\text{事件 } A \text{ 包含的基本事件数}}{\text{样本空间Ω中的基本事件总数}} = \frac{m}{n}} P(A)=样本空间Ω中的基本事件总数事件 A 包含的基本事件数=nm

求解步骤

确定样本空间 ：首先需要明确所有可能的结果，这些结果构成了样本空间 Ω Ω Ω。
确定感兴趣的事件 ：明确你要计算的事件 A A A，并找到包含在这个事件中的基本事件。
计算概率 ：使用上述公式 P ( A ) = m n P(A) = \frac{m}{n} P(A)=nm 来计算概率。

例子 1：投掷一枚公平的六面骰子

样本空间 Ω = { 1 , 2 , 3 , 4 , 5 , 6 } Ω = \{1, 2, 3, 4, 5, 6\} Ω={1,2,3,4,5,6}，其中 n = 6 n = 6 n=6。
事件 A A A：投掷结果是一个偶数。
包含的基本事件 A = { 2 , 4 , 6 } A = \{2, 4, 6\} A={2,4,6}，其中 m = 3 m = 3 m=3。
概率： P ( A ) = m n = 3 6 = 1 2 P(A) = \frac{m}{n} = \frac{3}{6} = \frac{1}{2} P(A)=nm=63=21。

例子 2：从一副52张的扑克牌中抽取一张

样本空间 Ω Ω Ω 包含所有52张牌，其中 n = 52 n = 52 n=52。
事件 A A A：抽取到红心。
包含的基本事件 A A A 是所有红心牌，有 m = 13 m = 13 m=13 张。
概率： P ( A ) = m n = 13 52 = 1 4 P(A) = \frac{m}{n} = \frac{13}{52} = \frac{1}{4} P(A)=nm=5213=41。

随机分配问题

将 n 个球随机分配到 N 个盒子中 \boldsymbol{将n个球随机分配到N个盒子中} 将n个球随机分配到N个盒子中

分配方式	不同分法的总数
每个盒子能装任意多个球	N n N^n Nn
每个盒子最多只能容纳一个球	A N n = N ! ( N − n ) ! A_N^n = \frac{N!}{(N-n)!} ANn=(N−n)!N!

"某指定n个"：只有1种情况

"恰有n个"：有 C N n C_N^n CNn种情况

简单随机抽样问题

从含有 N 个球个盒子中 n 次简单随机抽样 \boldsymbol{从含有N个球个盒子中n次简单随机抽样} 从含有N个球个盒子中n次简单随机抽样

抽样方式	抽样法总数
先后有放回取n次	N n N^n Nn
先后无放回取n次	A N n = N ! ( N − n ) ! A_N^n = \frac{N!}{(N-n)!} ANn=(N−n)!N!
任取n个	C N n C_N^n CNn

抓阄模型："先后无放回取 k k k个球"与"任取 k k k个球"的概率相同。

1.2 几何概型求概率

P ( A ) = A （子区域：长度，面积） Ω （几何区域：长度，面积） \boldsymbol{P(A)=\frac{A（子区域：长度，面积）}{Ω（几何区域：长度，面积）}} P(A)=Ω（几何区域：长度，面积）A（子区域：长度，面积）

1.3 重要公式求概率

2 一维随机变量及其分布

2.1 随机变量及其分布函数的定义

离散型随机变量及其概率分布（概率分布）

连续型随机变量及其概率分布（分布函数）

2.2 离散型分布

0-1分布 X ∼ B ( 1 , p ) X \sim B(1,p) X∼B(1,p)

二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)

几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p)

首中即停止（等待型分布），具有无记忆性首中即停止（等待型分布），具有无记忆性首中即停止（等待型分布），具有无记忆性

超几何分布 X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N)

泊松分布 X ∼ P ( λ ) X\sim P(λ) X∼P(λ)

用于描述稀有事件的概率用于描述稀有事件的概率用于描述稀有事件的概率

离散型→离散型

2.3 连续型分布

均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)

指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ)

正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2)

正态分布，也叫高斯分布，是一种特定的概率分布。其曲线呈钟形，对称于均值。

正态分布的重要性源于以下几个原因：

自然现象的普遍性：很多自然和社会现象的测量结果近似服从正态分布，比如人的身高、考试成绩、误差分布等。原因是这些现象往往受到多种独立因素的共同影响，而根据中心极限定理，当这些影响因素足够多且相互独立时，其结果往往接近正态分布。
统计推断的基础 ：在统计学中，许多推断方法（如 t t t 检验、 z z z 检验、线性回归等）都基于数据服从正态分布的假设。正态分布的数学特性使得这些方法可以更有效地估计参数、检验假设。
中心极限定理的支持：无论数据原本的分布是什么样的，只要样本量足够大，样本均值的分布就会趋向于正态分布。这一理论使得我们可以在处理大样本时，使用正态分布来简化问题。
易于计算和理解：正态分布有简洁的数学表达式，且它的标准化（即转化为标准正态分布）使得很多复杂的计算变得简单、直观。

连续型→离散型

2.4 混合型分布

连续型→连续型（或混合型）

3 多维随机变量及其分布

3.1 定义

3.2 求联合分布

二维均匀分布与二维正态分布

3.3 求边缘分布

3.4 求条件分布

3.5 判独立

3.6 用分布

3.7（离散型，离散型）→离散型

3.8（连续型，连续型）→连续型

分布函数法

卷积公式法（建议用这个）

最值函数的分布

3.10（离散型，连续型）→连续型【全集分解】

3.11 离散型→（离散型，离散型）

3.12 连续型→（离散型，离散型）

3.13 （离散型，离散型）→（离散型，离散型）

3.14 （连续型，连续型）→（离散型，离散型）

3.15 （离散型，连续型）→（离散型，离散型）

4 数字特征

4.1 数学期望

4.2 方差

4.3 亚当夏娃公式

4.4 常用分布的期望和方差

分布	期望 E ( X ) E(X) E(X)	方差 D ( X ) D(X) D(X)
0 − 1 0-1 0−1分布 X ∼ B ( p ) X \sim B(p) X∼B(p)	p p p	p ( 1 − p ) p(1-p) p(1−p)
二项分布 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)	n p np np	n p ( 1 − p ) np(1-p) np(1−p)
泊松分布 X ∼ p ( λ ) X\sim p(λ) X∼p(λ)	λ λ λ	λ λ λ
几何分布 X ∼ G ( p ) X\sim G(p) X∼G(p)	1 p \frac{1}{p} p1	1 − p p 2 \frac{1-p}{p^2} p21−p
超几何分布（了解） X ∼ H ( n , M , N ) X\sim H(n,M,N) X∼H(n,M,N)	n M N \frac{nM}{N} NnM	n ⋅ M N ⋅ ( 1 − M N ) ⋅ N − n N − 1 n \cdot \frac{M}{N} \cdot \left(1 - \frac{M}{N}\right) \cdot \frac{N-n}{N-1} n⋅NM⋅(1−NM)⋅N−1N−n
均匀分布 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)	E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b E ( X 2 ) = a 2 + a b + b 2 3 E(X^2) = \frac{a^2 + ab + b^2}{3} E(X2)=3a2+ab+b2	D ( X ) = ( b − a ) 2 12 D(X)=\frac{(b-a)^2}{12} D(X)=12(b−a)2 1 n ∑ i = 1 n ( X i − X ‾ ) 2 = ( b − a ) 2 12 \frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(b-a)^2}{12} n1i=1∑n(Xi−X)2=12(b−a)2 D ( X 2 ) = ( b − a ) 4 80 D(X^2) = \frac{(b - a)^4}{80} D(X2)=80(b−a)4
指数分布 X ∼ E ( λ ) X\sim E(λ) X∼E(λ)	E ( X ) = 1 λ E(X)=\frac{1}{λ} E(X)=λ1 E ( X 4 ) = 24 λ 4 E(X^4) = \frac{24}{\lambda^4} E(X4)=λ424	D ( X ) = 1 λ 2 D(X)=\frac{1}{λ^2} D(X)=λ21 D ( X 2 ) = 20 λ 4 D(X^2) = \frac{20}{\lambda^4} D(X2)=λ420
正态分布 X ∼ N ( μ , σ 2 ) X\sim N(μ,σ^2) X∼N(μ,σ2)	E ( X ) = μ E(X)=μ E(X)=μ E [ ( X − μ ) 4 ] = 3 σ 4 E[(X - \mu)^4] = 3\sigma^4 E[(X−μ)4]=3σ4 E [ ( X − X ‾ ) 4 ] = 3 ( n − 1 ) 2 σ 4 n 2 E[(X - \overline{X})^4] = \frac{3(n-1)^2\sigma^4}{n^2} E[(X−X)4]=n23(n−1)2σ4	D ( X ) = σ 2 D(X)=σ^2 D(X)=σ2 D ( X 2 ) = 2 σ 4 + 4 μ 2 σ 2 D(X^2) = 2\sigma^4 + 4\mu^2\sigma^2 D(X2)=2σ4+4μ2σ2 D ( S 2 ) = 2 σ 4 n − 1 D(S^2)=\frac{2σ^4}{n-1} D(S2)=n−12σ4
标准正态分布 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1)	E ( X ) = 0 E(X)=0 E(X)=0 E ( X 4 ) = 3 E(X^4)=3 E(X4)=3	D ( X ) = 1 D(X)=1 D(X)=1 D ( X 2 ) = 2 D(X^2)=2 D(X2)=2
瑞利分布（了解） X ∼ R ( σ ) X \sim \text{R}(\sigma) X∼R(σ)	π 2 σ \sqrt{\frac{π}{2}}σ 2π σ	( 2 − π 2 ) σ 2 (2-\frac{π}{2})σ^2 (2−2π)σ2
卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)	E ( X ) = n E(X)=n E(X)=n E ( X 4 ) = n ( n + 2 ) ( n + 4 ) E(X^4) = n(n + 2)(n + 4) E(X4)=n(n+2)(n+4)	D ( X ) = 2 n D(X)=2n D(X)=2n D ( X 2 ) = 4 n D(X^2)=4n D(X2)=4n
t t t分布 t ∼ t ( n ) t\sim t(n) t∼t(n)	0 0 0	n n − 2 \frac{n}{n-2} n−2n

4.5 协方差

4.6 相关系数

4.7 独立性与不相关性的判定

4.8 切比雪夫不等式

5 大数定律与中心极限定理

5.1 切比雪夫大数定律（均值依概率收敛到期望）

5.2 伯努利大数定律（频率依概率收敛到概率）

5.3 辛钦大数定律（均值依概率收敛到期望）

5.4 中心极限定理（n足够大时，均收敛于正态分布）

6 统计量及其分布

6.1 统计量

统计量是不含未知参数的随机变量的函数统计量是不含未知参数的随机变量的函数统计量是不含未知参数的随机变量的函数

6.2 标准正态分布分布的上α分位数

6.3 卡方分布 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n)

标准正态分布的平方标准正态分布的平方标准正态分布的平方

6.4 t分布 t ∼ t ( n ) t\sim t(n) t∼t(n)

标准正态分布的单打独斗标准正态分布的单打独斗标准正态分布的单打独斗

6.5 F分布 F ∼ F ( n 1 , n 2 ) F\sim F(n_1,n_2) F∼F(n1,n2)

卡方分布的单打独斗卡方分布的单打独斗卡方分布的单打独斗

6.6 正态总体下的常用结论

7 参数估计与假设检验

7.1 矩估计

矩估计法的核心思想是使得样本的样本矩 等于总体的理论矩，从而通过这个等式来解出模型的参数。所谓"矩"就是随机变量的不同阶的期望，比如一阶矩是期望值，二阶矩是方差等。

参数估计 能揭示数据规律，指导实际应用。描述数据 、预测未来 、优化决策 和风险评估是参数估计的主要用途。

描述数据特性：估计参数帮助我们理解数据的分布特性，比如正态分布的均值（数据中心）和方差（数据分散程度）。
预测与推断：通过估计参数，可以进行未来预测或假设检验。例如，使用时间序列模型的参数预测市场趋势。
建模与优化：许多模型依赖参数估计来优化决策，如线性回归中的回归系数，用于预测或分类。
风险管理与模拟：估计参数后可以进行数据模拟，帮助评估金融风险或仿真系统性能。
理论验证与模型选择：通过实际数据检验理论模型，参数估计帮助选择更适合的模型。

7.2 最大似然估计（MLE）

最大似然估计（MLE）是一种广泛使用的统计方法，通过寻找使观测数据出现概率最大的参数，来估计模型中的未知参数。这些估计值对统计模型来说至关重要，因为它们帮助我们了解数据的分布特征。在很多实际问题中，真实的分布参数通常是未知的。例如，你可能知道某个数据集来自正态分布，但不知道这个正态分布的具体均值（ μ \mu μ）和方差（ σ 2 \sigma^2 σ2）是什么。MLE通过样本数据估计这些参数，从而得出对总体特征的最佳猜测。随着样本量的增加，MLE的估计值会趋近于真实参数，因为它在大样本情况下具有渐近无偏性和渐近有效性。

在实际应用中，这些参数估计值有广泛的用途：

模型预测: 在机器学习中，MLE的参数估计值用于构建预测模型。例如，在逻辑回归中，MLE得到的参数用来预测事件发生的概率。
风险评估: 在金融领域，MLE估计的参数帮助投资者评估和管理风险，比如估计资产回报率的波动性。
工程应用: 在质量控制中，MLE用于估计生产过程中产品的缺陷率，从而帮助改进生产流程。
医学研究: 在医学领域，研究人员通过MLE估计药物疗效的相关参数，从而确定最佳剂量或治疗方案。

总结而言，最大似然估计是一种强大而广泛应用的统计工具，无论是在学术研究还是实际应用中，都能为我们提供有价值的信息和决策支持。

7.3 常见分布的矩估计量和最大似然估计量

X服从的分布	矩估计量	似然估计量
0 − 1 分布 0-1分布 0−1分布	p ^ = X ‾ \hat{p}=\overline{X} p^=X	p ^ = X ‾ \hat{p}=\overline{X} p^=X
B ( n , p ) B(n,p) B(n,p)	p ^ = X ‾ n \hat{p}=\frac{\overline{X}}{n} p^=nX	p ^ = X ‾ n \hat{p}=\frac{\overline{X}}{n} p^=nX
G ( p ) G(p) G(p)	p ^ = 1 X ‾ \hat{p}=\frac{1}{\overline{X}} p^=X1	p ^ = 1 X ‾ \hat{p}=\frac{1}{\overline{X}} p^=X1
P ( λ ) P(λ) P(λ)	λ ^ = X ‾ \hat{λ}=\overline{X} λ^=X	λ ^ = X ‾ \hat{λ}=\overline{X} λ^=X
U ( a , b ) U(a,b) U(a,b)	a ^ = X ‾ − 3 n ∑ i = i n ( X i − X ‾ ) \hat{a}=\overline{X}-\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})} a^=X−n3i=i∑n(Xi−X) b ^ = X ‾ + 3 n ∑ i = i n ( X i − X ‾ ) \hat{b}=\overline{X}+\sqrt{\frac{3}{n}\sum_{i=i}^n(X_i-\overline{X})} b^=X+n3i=i∑n(Xi−X)	a ^ = m i n { X 1 , X 2 , . . . , X n } \hat{a}=min\{X_1,X_2,...,X_n\} a^=min{X1,X2,...,Xn} b ^ = m a x { X 1 , X 2 , . . . , X n } \hat{b}=max\{X_1,X_2,...,X_n\} b^=max{X1,X2,...,Xn}
E ( λ ) E(λ) E(λ)	λ ^ = 1 X ‾ \hat{λ}=\frac{1}{\overline{X}} λ^=X1	λ ^ = 1 X ‾ \hat{λ}=\frac{1}{\overline{X}} λ^=X1
N ( μ , σ 2 ) N(μ,σ^2) N(μ,σ2)	μ ^ = X ‾ \hat{μ}=\overline{X} μ^=X σ 2 ^ = 1 n ∑ i = i n ( X i − X ‾ ) \hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X}) σ2^=n1i=i∑n(Xi−X)	μ ^ = X ‾ \hat{μ}=\overline{X} μ^=X σ 2 ^ = 1 n ∑ i = i n ( X i − X ‾ ) \hat{σ^2}=\frac{1}{n}\sum_{i=i}^n(X_i-\overline{X}) σ2^=n1i=i∑n(Xi−X)