文章目录
- 统计学
-
- [统计推断(Statistical Inference)](#统计推断(Statistical Inference))
-
- 抽样与抽样分布
- 参数估计(Estimation)
- [假设检验(Hypothesis Testing)](#假设检验(Hypothesis Testing))
- 方差分析(ANOVA)
统计学
统计推断(Statistical Inference)
抽样与抽样分布
- 抽样 :在实际研究中,我们通常无法获取总体 (Population)的全部数据,因此需要从总体中抽取一部分个体进行观察,这部分就是样本(Sample)。不同样本会得到不同的结果。
- 参数 (Parameter):描述总体特征的数值,如总体均值 μ μ μ、总体标准差 σ σ σ、总体比例 π π π
- 统计量 (Statistic):由样本数据计算出的量,用于估计参数,如样本均值 x ˉ \bar{x} xˉ 、样本标准差 s s s、样本比例 p ^ \hat{p} p^
- 抽样分布 (Sampling Distribution):在相同样本容量 n n n下,从同一总体中重复抽取大量样本,计算某个统计量(如 x ˉ \bar{x} xˉ),这些统计量的分布称为该统计量的抽样分布。
设总体服从任意分布,均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2,从中抽取容量为 n n n的样本,样本均值为
X ‾ = 1 n ∑ n i = 1 X i \overline{X} = \frac{1}{n}\underset{i=1}{\overset{n}{\sum}}X_i X=n1i=1∑nXi则有性质:
- 均值: E [ X ‾ ] = μ \mathbb{E}[\overline{X}] = \mu E[X]=μ
- 方差: Var ( X ‾ ) = σ 2 n \text{Var}(\overline{X}) = \frac{\sigma^2}{n} Var(X)=nσ2
- 标准误: SE = σ n \text{SE} = \frac{\sigma}{\sqrt{n}} SE=n σ
- 中心极限定理(Central Limit Theorem, CLT):
无论总体分布如何(只要均值 μ \mu μ和方差 σ 2 \sigma^2 σ2存在),当样本容量 n n n足够大时,样本均值 X ‾ \overline{X} X的抽样分布近似服从正态分布:
X ‾ → d N ( μ , σ 2 n ) \overline{X} \overset{d}{\to} \mathcal{N}\left(\mu, \frac{\sigma^2}{n}\right) X→dN(μ,nσ2)
- 样本比例的抽样分布(Sampling Distribution of the Sample Proportion):
设总体中某事件发生的概率为 p p p,从总体中抽取容量为 n n n的样本,样本中该事件发生比例为:
p ^ = 成功次数 n \hat{p} = \frac{成功次数}{n} p^=n成功次数则有性质:
- 均值 E [ p ^ ] = p \mathbb{E}[\hat{p}] = p E[p^]=p
- 方差 Var ( p ^ ) = p ( 1 − p ) n \text{Var}(\hat{p}) = \frac{p(1-p)}{n} Var(p^)=np(1−p)
- 标准误 SE = p ( 1 − p ) n \text{SE}=\sqrt{\frac{p(1-p)}{n}} SE=np(1−p)
根据中心极限定理,当 n n n足够大且 n p ≥ 5 , n ( 1 − p ) ≥ 5 np \ge 5, n(1-p) \ge 5 np≥5,n(1−p)≥5时
p ^ ∼ N ( p , p ( 1 − p ) n ) \hat{p} \sim \mathcal{N}\left(p, \frac{p(1-p)}{n}\right) p^∼N(p,np(1−p))
- 三种重要的分布
- t t t分布 : t = X ‾ − μ s / n t = \frac{\overline{X} - \mu}{s/\sqrt{n}} t=s/n X−μ当 n → ∞ n \to \infty n→∞, t → N ( 0 , 1 ) t \to \mathcal{N}(0, 1) t→N(0,1)
- χ 2 \chi^2 χ2分布 :
- 构造方式一:多个独立标准正态变量的平方和 χ 2 = Z 1 2 + Z 2 2 + . . . + Z k 2 ∼ χ 2 ( k ) \chi^2 = Z_1^2 + Z_2^2 + ... + Z_k^2 \sim \chi^2(k) χ2=Z12+Z22+...+Zk2∼χ2(k)
- 构造方式二:与样本方差相关 ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)s2∼χ2(n−1)
- F 分布 : F = U / d f 1 V / d f 2 , U ∼ χ 2 ( d f 1 ) , V ∼ χ 2 ( d f 2 ) F = \frac{U/df_1}{V/df_2}, U \sim \chi^2(df_1), V \sim \chi^2(df_2) F=V/df2U/df1,U∼χ2(df1),V∼χ2(df2)
参数估计(Estimation)
- 点估计 (Point Estimation):一个好的估计量应该具备以下性质:
- 无偏性(Unbiasedness): E ( θ ^ ) = θ \mathbb{E}(\hat{\theta})= \theta E(θ^)=θ
- 有效性(Efficiency):若 Var ( θ ^ 1 ) < Var ( θ ^ 2 ) \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2) Var(θ^1)<Var(θ^2),则 θ ^ 1 \hat{\theta}_1 θ^1更有效。
- 一致性(Consistency):当样本量 n → ∞ n \to \infty n→∞时,估计量依概率收敛于真值。
lim n → ∞ P ( ∣ θ ^ − θ ∣ < ϵ ) = 1 \lim_{n\to \infty} P(|\hat{\theta}-\theta| < \epsilon) = 1 n→∞limP(∣θ^−θ∣<ϵ)=1 - 充分性(Sufficiency):估计量包含了样本中关于参数的全部信息。
常见的点估计方法:
- 矩估计法(Method of Moments, MOM):用样本矩代替总体矩来解出参数。
- 最大似然估计法(Maximum Likelihood Estimation, MLE):找到使"当前样本出现概率最大"的参数值。
- 区间估计 (Interval Estimation):给出一个区间 [ L , U ] [L, U] [L,U],使得该区间以一定的概率包含真实参数。这个区间称为置信区间 (Confidence Interval, CI),概率称为置信水平 。
P ( L ≤ θ ≤ U ) = 1 − α P(L \le \theta \le U) = 1-\alpha P(L≤θ≤U)=1−α
求置信区间的步骤可以归结为:- 枢轴量(Pivotal Quantity)是一个同时包含未知参数和样本统计量的函数,它的概率分布是完全已知的,且不依赖于任何未知参数。
- 利用枢轴量的分布,写出它落在"中间 1 − α 1-\alpha 1−α"区域的概率
- 将不等式关于 θ \theta θ反解出来,得到一个区间
例子:总体 X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) X∼N(μ,σ2),其中 σ 2 \sigma^2 σ2已知, μ \mu μ未知,样本均值 X ‾ = 1 n ∑ X i \overline{X} = \frac{1}{n}\sum X_i X=n1∑Xi。
- 利用 t t t分布: t = X ‾ − μ s / n ∼ N ( 0 , 1 ) t = \frac{\overline{X} - \mu}{s/\sqrt{n}} \sim \mathcal{N}(0 ,1) t=s/n X−μ∼N(0,1)
- 构造置信区间: P ( − z ≤ X ‾ − μ s / n ≤ z ) = 1 − α P\left(-z \le \frac{\overline{X} - \mu}{s/\sqrt{n}} \le z\right) = 1-\alpha P(−z≤s/n X−μ≤z)=1−α
- 解出 μ \mu μ的范围。
假设检验(Hypothesis Testing)
定义:利用样本数据,判断关于总体参数(如均值、比例、方差等)的某个假设是否合理。
基本思想:
- 先假定一个结论是对的
- 在这个假定下,计算出现当前样本结果的概率
- 如果这个概率非常小,说明假定不合理 → 拒绝假设
方差分析(ANOVA)
核心思想:如果各组均值真的相同,那"组与组之间的差异 ",应该和"组内的随机波动"差不多大。
- 组内平方和(SSW): ∑ k j = 1 ∑ n j i = 1 ( x i j − x j ‾ ) 2 \underset{j=1}{\overset{k}{\sum}}\underset{i=1}{\overset{n_j}{\sum}}(x_{ij} - \overline{x_j})^2 j=1∑ki=1∑nj(xij−xj)2
- 组内方差(MSW): SSW N − k \frac{\text{SSW}}{N-k} N−kSSW,是 σ 2 \sigma^2 σ2的无偏估计。
- 组间平方和(SSB): ∑ k j = 1 n j ( x j ‾ − x ‾ ) 2 \underset{j=1}{\overset{k}{\sum}}n_j(\overline{x_j} - \overline{x})^2 j=1∑knj(xj−x)2
- 组间方差(MSB): SSB N − k \frac{\text{SSB}}{N-k} N−kSSB, E ( MSB ) = σ 2 + \mathbb{E}(\text{MSB}) = \sigma^2 + E(MSB)=σ2+组间差异
- 如果组间方差显著大于组内方差,说明分组因素起作用