神经网络之从自由度角度理解方差的无偏估计

我们现在从"自由度 "的角度,深入解释为什么样本方差要除以 (n−1)( n - 1 )(n−1) 才能成为无偏估计(unbiased estimator) ,而不是 (n)( n )(n)。


🧠 目标:用样本估计总体方差

总体方差定义为:

σ2=1N∑i=1N(xi−μ)2 \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2

但通常我们没有总体所有数据,只能从样本 (x1,x2,...,xn)( x_1, x_2, ..., x_n )(x1,x2,...,xn) 来估计。


❓ 为什么不能直接用样本方差(除以(n))(除以 ( n ))(除以(n))?

样本方差常见两种版本:

  • 偏差估计(biased)(biased)(biased)
    s2=1n∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n1i=1∑n(xi−xˉ)2

    它是偏小 的估计,平均来说小于真实的(σ2)( \sigma^2 )(σ2)。

  • 无偏估计(unbiased)(unbiased)(unbiased)
    s2=1n−1∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2

    它才是我们想要的估计。

我们接下来解释------为什么用 (n−1)( n-1 )(n−1) 是合理的修正 ,而这背后就涉及到自由度的核心概念


🔍 从自由度看问题:估计过程中"用了一个自由度"

🚩 关键点:

在计算样本方差时,我们并不知道真实的总体均值 (μ)( \mu )(μ),所以我们用样本均值 (xˉ)( \bar{x} )(xˉ) 来代替。

🧩 这有什么影响?

当我们用样本均值 (xˉ)( \bar{x} )(xˉ) 时,样本数据之间就不再是完全独立的了。

举个例子:

假设你有 (n=3)( n = 3 )(n=3) 个数据点:

  • (x1=2)( x_1 = 2 )(x1=2)
  • (x2=4)( x_2 = 4 )(x2=4)
  • (x3=?)( x_3 = ? )(x3=?)
  • 样本均值为 (xˉ=5)( \bar{x} = 5 )(xˉ=5)

你能不能知道 (x3)( x_3 )(x3) 是多少?可以:

xˉ=x1+x2+x33⇒x3=3⋅5−(2+4)=15−6=9 \bar{x} = \frac{x_1 + x_2 + x_3}{3} \Rightarrow x_3 = 3 \cdot 5 - (2 + 4) = 15 - 6 = 9 xˉ=3x1+x2+x3⇒x3=3⋅5−(2+4)=15−6=9

这说明了什么?

一旦你知道了样本均值和其中 (n−1)( n - 1 )(n−1) 个样本数据,第 (n)( n )(n) 个数据就被固定了。

这就是自由度减 1 的核心原因:

  • 你本来有 (n)( n )(n) 个"可以自由变动"的数;
  • 但在计算样本均值 (xˉ)( \bar{x} )(xˉ) 时,数据被一个约束条件绑住了;
  • 所以只有 (n−1)( n - 1 )(n−1) 个数据是真正"自由的";

📉 自由度减少如何影响方差估计?

假设你错误地除以 (n)( n )(n)(不考虑自由度减少):

  • 你用 (xˉ)( \bar{x} )(xˉ) 替代了真实的 (μ)( \mu )(μ),
  • 由于 (xˉ)( \bar{x} )(xˉ) 是靠数据算出来的 ,它更贴近数据本身,比 (μ)( \mu )(μ) 更靠近数据中点;
  • 所以你计算的偏差 ((xi−xˉ)2)( (x_i - \bar{x})^2 )((xi−xˉ)2)会比 ((xi−μ)2)( (x_i - \mu)^2 )((xi−μ)2)系统性地小一点
  • 结果是:你会低估 方差(低估整体波动)(低估整体波动)(低估整体波动)。

所以,为了补偿这个"人为缩小"的误差,必须放大一下结果 ,也就是除以 (n−1)( n - 1 )(n−1) 而不是 (n)( n )(n)

这就是所谓的:

样本方差的无偏估计需要除以自由度 (n−1)( n - 1 )(n−1)


📚 数学上支持这一点的公式

我们可以证明:

E[1n∑(xi−xˉ)2]=(n−1n)σ2 \mathbb{E}\left[\frac{1}{n} \sum (x_i - \bar{x})^2 \right] = \left(\frac{n-1}{n}\right) \sigma^2 E[n1∑(xi−xˉ)2]=(nn−1)σ2

即:用 (n)( n )(n) 除的话,期望会比真实的 (σ2)( \sigma^2 )(σ2) 小。

而改成除以 (n−1)( n - 1 )(n−1):

E[1n−1∑(xi−xˉ)2]=σ2 \mathbb{E}\left[\frac{1}{n-1} \sum (x_i - \bar{x})^2 \right] = \sigma^2 E[n−11∑(xi−xˉ)2]=σ2

这样才是无偏估计。


✅ 总结:为什么要除以 (n−1)( n - 1 )(n−1)(自由度角度)

维度 解释
自由度 样本均值占用了 1 个自由度,剩下 (n−1)( n - 1 )(n−1) 个数据才能自由变化
方差的低估 使用 (xˉ)( \bar{x} )(xˉ) 作为均值会系统性低估数据的真实波动
修正手段 除以(n−1)( n - 1 )(n−1) 来"放大"估计值,使其平均值等于真实方差(无偏)
统计学意义 保证估计值在多次抽样中平均不会偏离真实值
相关推荐
武子康4 小时前
大数据-209 深度理解逻辑回归(Logistic Regression)与梯度下降优化算法
大数据·后端·机器学习
少林码僧6 小时前
2.29 XGBoost、LightGBM、CatBoost对比:三大梯度提升框架选型指南
人工智能·机器学习·ai·数据挖掘·数据分析·回归
春日见6 小时前
控制算法:PP(纯跟踪)算法
linux·人工智能·驱动开发·算法·机器学习
Yeats_Liao6 小时前
MindSpore开发之路(二十六):系列总结与学习路径展望
人工智能·深度学习·学习·机器学习
gorgeous(๑>؂<๑)7 小时前
【中科院-张启超组-AAAI26】WorldRFT: 用于自动驾驶的带强化微调的潜在世界模型规划
人工智能·机器学习·自动驾驶
高洁018 小时前
CLIP 的双编码器架构是如何优化图文关联的?(3)
深度学习·算法·机器学习·transformer·知识图谱
学好statistics和DS9 小时前
卷积神经网络中的反向传播
人工智能·神经网络·cnn
小兔崽子去哪了11 小时前
机器学习,梯度下降,拟合,正则化,混淆矩阵
python·机器学习
双翌视觉12 小时前
深入解析远心镜头的工作原理与选型
人工智能·数码相机·机器学习
极客小云13 小时前
【手搓神经网络:从零实现三层BP神经网络识别手写数字】
人工智能·深度学习·神经网络