中级统计师-统计学基础知识-第三章 参数估计

统计学基础知识 第三章 参数估计


第一节 统计量与抽样分布

1.1 总体参数与统计量

  • 总体参数 :描述总体特征的未知量(如均值 μ \mu μ、方差 σ 2 \sigma^2 σ2、比例 π \pi π)。
  • 统计量 :由样本数据计算的量(如样本均值 x ˉ \bar{x} xˉ、样本方差 s 2 s^2 s2、样本比例 p p p),是随机变量。

1.2 点估计的评价标准

标准 定义 数学表达
无偏性 估计量的期望等于总体参数 E ( θ ^ ) = θ E(\hat{\theta}) = \theta E(θ^)=θ 例: E ( x ˉ ) = μ E(\bar{x}) = \mu E(xˉ)=μ, E ( s 2 ) = σ 2 E(s^2) = \sigma^2 E(s2)=σ2
有效性 方差更小的无偏估计量更有效 Var ( θ ^ 1 ) < Var ( θ ^ 2 ) \text{Var}(\hat{\theta}_1) < \text{Var}(\hat{\theta}_2) Var(θ^1)<Var(θ^2)
一致性 样本量增大时,估计量趋近于总体参数

lim ⁡ n → ∞ P ( ∣ θ ^ − θ ∣ < ϵ ) = 1 \lim_{n \to \infty} P\left( |\hat{\theta} - \theta| < \epsilon \right) = 1 limn→∞P(∣θ^−θ∣<ϵ)=1

1.3 样本均值的抽样分布

  • 重复抽样 :样本均值 x ˉ \bar{x} xˉ 的方差为:
    σ x ˉ 2 = σ 2 n \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} σxˉ2=nσ2
  • 不重复抽样 :方差修正为:
    σ x ˉ 2 = σ 2 n ⋅ N − n N − 1 \sigma_{\bar{x}}^2 = \frac{\sigma^2}{n} \cdot \frac{N-n}{N-1} σxˉ2=nσ2⋅N−1N−n
  • 中心极限定理 :当 n ≥ 30 n \geq 30 n≥30 时,无论总体分布如何:
    x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉ∼N(μ,nσ2)
  • 正态总体 :若总体服从 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),则:
    x ˉ ∼ N ( μ , σ 2 n ) \bar{x} \sim N\left( \mu, \frac{\sigma^2}{n} \right) xˉ∼N(μ,nσ2)

1.4 样本比例的抽样分布

  • 总体比例 π \pi π:具有某属性的单位占比。
  • 样本比例 p p p :当 n p ≥ 5 np \geq 5 np≥5 且 n ( 1 − p ) ≥ 5 n(1-p) \geq 5 n(1−p)≥5 时:
    p ∼ N ( π , π ( 1 − π ) n ) p \sim N\left( \pi, \frac{\pi(1-\pi)}{n} \right) p∼N(π,nπ(1−π))
  • 不重复抽样 :方差修正为:
    σ p 2 = π ( 1 − π ) n ⋅ N − n N − 1 \sigma_p^2 = \frac{\pi(1-\pi)}{n} \cdot \frac{N-n}{N-1} σp2=nπ(1−π)⋅N−1N−n

第二节 区间估计

2.1 基本原理

  • 置信区间 :由样本统计量加减估计误差得到,置信水平 1 − α 1-\alpha 1−α 表示区间包含总体参数的概率。
  • 公式通用形式
    ( 统计量 ± 分位数值 × 标准误差 ) \left( \text{统计量} \pm \text{分位数值} \times \text{标准误差} \right) (统计量±分位数值×标准误差)

2.2 单个总体参数的区间估计

(一)均值的区间估计
条件 公式
大样本( n ≥ 30 n \geq 30 n≥30, σ \sigma σ 已知) x ˉ ± z α / 2 ⋅ σ n \bar{x} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} xˉ±zα/2⋅n σ
大样本( σ \sigma σ 未知) x ˉ ± z α / 2 ⋅ s n \bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} xˉ±zα/2⋅n s
小样本( σ \sigma σ 未知,正态总体) x ˉ ± t α / 2 ( n − 1 ) ⋅ s n \bar{x} \pm t_{\alpha/2}(n-1) \cdot \frac{s}{\sqrt{n}} xˉ±tα/2(n−1)⋅n s
(二)比例的区间估计

p ± z α / 2 ⋅ p ( 1 − p ) n ( 需满足 n p ≥ 5 , n ( 1 − p ) ≥ 5 ) p \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}} \quad (\text{需满足 } np \geq 5, n(1-p) \geq 5) p±zα/2⋅np(1−p) (需满足 np≥5,n(1−p)≥5)

2.3 两个总体参数的区间估计

(一)均值之差(独立样本)
  • 大样本
    ( x ˉ 1 − x ˉ 2 ) ± z α / 2 ⋅ s 1 2 n 1 + s 2 2 n 2 (\bar{x}_1 - \bar{x}2) \pm z{\alpha/2} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} (xˉ1−xˉ2)±zα/2⋅n1s12+n2s22
  • 小样本(方差齐性)
    ( x ˉ 1 − x ˉ 2 ) ± t α / 2 ( n 1 + n 2 − 2 ) ⋅ s p 1 n 1 + 1 n 2 (\bar{x}_1 - \bar{x}2) \pm t{\alpha/2}(n_1 + n_2 - 2) \cdot s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} (xˉ1−xˉ2)±tα/2(n1+n2−2)⋅spn11+n21
    其中:
    s p 2 = ( n 1 − 1 ) s 1 2 + ( n 2 − 1 ) s 2 2 n 1 + n 2 − 2 s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} sp2=n1+n2−2(n1−1)s12+(n2−1)s22
(二)比例之差

( p 1 − p 2 ) ± z α / 2 ⋅ p 1 ( 1 − p 1 ) n 1 + p 2 ( 1 − p 2 ) n 2 (p_1 - p_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}} (p1−p2)±zα/2⋅n1p1(1−p1)+n2p2(1−p2)


第三节 样本量的确定

3.1 影响因素

因素 影响
总体标准差 σ \sigma σ σ ↑ ⇒ n ↑ \sigma \uparrow \Rightarrow n \uparrow σ↑⇒n↑
最大允许误差 E E E E ↑ ⇒ n ↓ E \uparrow \Rightarrow n \downarrow E↑⇒n↓
置信水平 1 − α 1-\alpha 1−α 1 − α ↑ ⇒ n ↑ 1-\alpha \uparrow \Rightarrow n \uparrow 1−α↑⇒n↑
抽样方式 不重复抽样所需样本量更小

3.2 计算公式

(一)估计总体均值
  • 重复抽样
    n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{(z_{\alpha/2})^2 \sigma^2}{E^2} n=E2(zα/2)2σ2
  • 不重复抽样
    n ∗ = n 1 + n N n^* = \frac{n}{1 + \frac{n}{N}} n∗=1+Nnn
(二)估计总体比例
  • 重复抽样
    n = ( z α / 2 ) 2 π ( 1 − π ) E 2 ( π 未知时取 π = 0.5 ) n = \frac{(z_{\alpha/2})^2 \pi(1-\pi)}{E^2} \quad (\pi \text{ 未知时取 } \pi = 0.5) n=E2(zα/2)2π(1−π)(π 未知时取 π=0.5)

经典例题解析

例题1:样本量计算

  • 题目 :估计居民旅游费用( σ = 1000 \sigma = 1000 σ=1000, E = 100 E = 100 E=100,置信水平 95%),求样本量。
  • 解析
    n = ( 1.96 ) 2 ⋅ 100 0 2 10 0 2 ≈ 385 n = \frac{(1.96)^2 \cdot 1000^2}{100^2} \approx 385 n=1002(1.96)2⋅10002≈385

总结

  1. 区间估计核心:用样本统计量构建包含总体参数的区间,置信水平反映区间可靠性。
  2. 样本量权衡 :精度(误差 E E E)与成本(样本量 n n n)需平衡。
  3. 分布选择 :大样本用正态分布,小样本用 t t t 分布,比例问题用二项近似正态。
相关推荐
上海云盾商务经理杨杨2 分钟前
2025年AI与网络安全的终极博弈:冲击、重构与生存法则
人工智能·安全·web安全·网络安全·重构
AI360labs_atyun5 分钟前
谷歌前CEO TED演讲解析:AI 红利的三年窗口期与行业重构
人工智能·科技·ai·重构·llama·教育
Jamence12 分钟前
多模态大语言模型arxiv论文略读(八十)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
xiaohanbao0913 分钟前
day30 python 模块、包与库的高效使用指南
人工智能·python·学习·算法
神码小Z20 分钟前
AI自媒体封面生成系统
人工智能·媒体
虾球xz22 分钟前
游戏引擎学习第295天:堆叠房间用于Z层调试
c++·人工智能·学习·游戏引擎
Mr.Winter`22 分钟前
深度强化学习 | 基于SAC算法的移动机器人路径跟踪(附Pytorch实现)
人工智能·pytorch·深度学习·神经网络·机器人·自动驾驶·ros
FreeBuf_35 分钟前
对抗性机器学习:AI模型安全防护新挑战
人工智能·安全·机器学习
盈达科技38 分钟前
【盈达科技】AICC™系统:重新定义生成式AI时代的内容竞争力
人工智能·科技·重构
白熊1881 小时前
【图像大模型】ExVideo-SVD-128f:面向长视频生成的时空扩散模型深度解析
人工智能·音视频·通用智能体·web search