神经网络之样本方差的无偏估计

🧠 一、背景设定

设 (X1,X2,...,Xn)( X_1, X_2, \dots, X_n )(X1,X2,...,Xn) 是从总体中独立随机抽取的 ( n ) 个样本,满足:

  • 每个 (Xi∼i.i.d.)( X_i \sim \text{i.i.d.} )(Xi∼i.i.d.)
  • (E[Xi]=μ)( \mathbb{E}[X_i] = \mu )(E[Xi]=μ),总体均值
  • (Var(Xi)=σ2)( \text{Var}(X_i) = \sigma^2 )(Var(Xi)=σ2),总体方差

定义:

  • 样本均值:
    Xˉ=1n∑i=1nXi \bar{X} = \frac{1}{n} \sum_{i=1}^n X_i Xˉ=n1i=1∑nXi

  • 样本方差的无偏估计:
    S2=1n−1∑i=1n(Xi−Xˉ)2 S^2 = \frac{1}{n - 1} \sum_{i=1}^n (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2

我们想要证明:

E[S2]=σ2 \mathbb{E}[S^2] = \sigma^2 E[S2]=σ2


🧮 二、推导过程

我们从样本方差的定义入手:

S2=1n−1∑i=1n(Xi−Xˉ)2 S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2 S2=n−11i=1∑n(Xi−Xˉ)2

我们要计算:

E[S2]=1n−1E[∑i=1n(Xi−Xˉ)2] \mathbb{E}[S^2] = \frac{1}{n-1} \mathbb{E} \left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] E[S2]=n−11E[i=1∑n(Xi−Xˉ)2]

也就是说,我们只需要证明:

E[∑i=1n(Xi−Xˉ)2]=(n−1)σ2 \mathbb{E} \left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] = (n - 1)\sigma^2 E[i=1∑n(Xi−Xˉ)2]=(n−1)σ2


✂️ 步骤 1:展开偏差平方和

∑i=1n(Xi−Xˉ)2=∑i=1nXi2−nXˉ2 \sum_{i=1}^n (X_i - \bar{X})^2 = \sum_{i=1}^n X_i^2 - n\bar{X}^2 i=1∑n(Xi−Xˉ)2=i=1∑nXi2−nXˉ2

推导如下:

∑i=1n(Xi−Xˉ)2=∑Xi2−2Xˉ∑Xi+nXˉ2=∑Xi2−2nXˉ2+nXˉ2=∑Xi2−nXˉ2 \sum_{i=1}^n (X_i - \bar{X})^2 = \sum X_i^2 - 2\bar{X} \sum X_i + n\bar{X}^2 = \sum X_i^2 - 2n\bar{X}^2 + n\bar{X}^2 = \sum X_i^2 - n\bar{X}^2 i=1∑n(Xi−Xˉ)2=∑Xi2−2Xˉ∑Xi+nXˉ2=∑Xi2−2nXˉ2+nXˉ2=∑Xi2−nXˉ2

所以:

E[∑i=1n(Xi−Xˉ)2]=E[∑i=1nXi2−nXˉ2]=∑i=1nE[Xi2]−nE[Xˉ2] \mathbb{E}\left[\sum_{i=1}^n (X_i - \bar{X})^2 \right] = \mathbb{E}\left[ \sum_{i=1}^n X_i^2 - n\bar{X}^2 \right] = \sum_{i=1}^n \mathbb{E}[X_i^2] - n \mathbb{E}[\bar{X}^2] E[i=1∑n(Xi−Xˉ)2]=E[i=1∑nXi2−nXˉ2]=i=1∑nE[Xi2]−nE[Xˉ2]


📌 步骤 2:计算每一项的期望

2.1 (E[Xi2])(\mathbb{E}[X_i^2])(E[Xi2])

由于 (Xi∼i.i.d.)( X_i \sim \text{i.i.d.} )(Xi∼i.i.d.),所以对于每个 (i)( i )(i):

E[Xi2]=Var(Xi)+(E[Xi])2=σ2+μ2 \mathbb{E}[X_i^2] = \text{Var}(X_i) + (\mathbb{E}[X_i])^2 = \sigma^2 + \mu^2 E[Xi2]=Var(Xi)+(E[Xi])2=σ2+μ2

所以:

∑i=1nE[Xi2]=n(σ2+μ2) \sum_{i=1}^n \mathbb{E}[X_i^2] = n(\sigma^2 + \mu^2) i=1∑nE[Xi2]=n(σ2+μ2)

2.2 (E[Xˉ2])(\mathbb{E}[\bar{X}^2])(E[Xˉ2])

E[Xˉ2]=Var(Xˉ)+(E[Xˉ])2=σ2n+μ2 \mathbb{E}[\bar{X}^2] = \text{Var}(\bar{X}) + (\mathbb{E}[\bar{X}])^2 = \frac{\sigma^2}{n} + \mu^2 E[Xˉ2]=Var(Xˉ)+(E[Xˉ])2=nσ2+μ2

所以:

nE[Xˉ2]=n(σ2n+μ2)=σ2+nμ2 n\mathbb{E}[\bar{X}^2] = n\left( \frac{\sigma^2}{n} + \mu^2 \right) = \sigma^2 + n\mu^2 nE[Xˉ2]=n(nσ2+μ2)=σ2+nμ2


✨ 步骤 3:代入并相减

E[∑i=1n(Xi−Xˉ)2]=n(σ2+μ2)−(σ2+nμ2)=nσ2+nμ2−σ2−nμ2=(n−1)σ2 \mathbb{E}\left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] = n(\sigma^2 + \mu^2) - \left( \sigma^2 + n\mu^2 \right) = n\sigma^2 + n\mu^2 - \sigma^2 - n\mu^2 = (n - 1)\sigma^2 E[i=1∑n(Xi−Xˉ)2]=n(σ2+μ2)−(σ2+nμ2)=nσ2+nμ2−σ2−nμ2=(n−1)σ2


✅ 最后一步:代入样本方差

E[S2]=1n−1⋅E[∑i=1n(Xi−Xˉ)2]=1n−1⋅(n−1)σ2=σ2 \mathbb{E}[S^2] = \frac{1}{n - 1} \cdot \mathbb{E} \left[ \sum_{i=1}^n (X_i - \bar{X})^2 \right] = \frac{1}{n - 1} \cdot (n - 1)\sigma^2 = \sigma^2 E[S2]=n−11⋅E[i=1∑n(Xi−Xˉ)2]=n−11⋅(n−1)σ2=σ2


🎉 结论

E[S2]=σ2 \mathbb{E}[S^2] = \sigma^2 E[S2]=σ2

因此,

样本方差 (S2=1n−1∑(Xi−Xˉ)2)( S^2 = \frac{1}{n-1} \sum (X_i - \bar{X})^2 )(S2=n−11∑(Xi−Xˉ)2) 是总体方差 (σ2)( \sigma^2 )(σ2) 的无偏估计。


💡 为什么要除以 (n−1)( n - 1 )(n−1) 而不是 (n)( n )(n)?

直觉解释:

  • 当你用样本估计总体均值 (μ)( \mu )(μ) 时,用的是 样本均值 (Xˉ)( \bar{X} )(Xˉ),这是一个对数据的"估计";
  • 因为你已经用数据"消耗"了一部分自由度去估计 (Xˉ)( \bar{X} )(Xˉ),所以在计算方差时,不能再当作所有 (n)( n )(n) 个数据都是独立的
  • 这就是统计学中所说的:自由度减少了 1 ,因此方差需要除以 (n−1)( n - 1 )(n−1)。
相关推荐
会飞的老朱1 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º3 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
Codebee5 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º5 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys6 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56786 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子6 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
智驱力人工智能6 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算
qq_160144876 小时前
亲测!2026年零基础学AI的入门干货,新手照做就能上手
人工智能
Howie Zphile6 小时前
全面预算管理难以落地的核心真相:“完美模型幻觉”的认知误区
人工智能·全面预算