神经网络之从自由度角度理解方差的无偏估计

我们现在从"自由度 "的角度,深入解释为什么样本方差要除以 (n−1)( n - 1 )(n−1) 才能成为无偏估计(unbiased estimator) ,而不是 (n)( n )(n)。


🧠 目标:用样本估计总体方差

总体方差定义为:

σ2=1N∑i=1N(xi−μ)2 \sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2 σ2=N1i=1∑N(xi−μ)2

但通常我们没有总体所有数据,只能从样本 (x1,x2,...,xn)( x_1, x_2, ..., x_n )(x1,x2,...,xn) 来估计。


❓ 为什么不能直接用样本方差(除以(n))(除以 ( n ))(除以(n))?

样本方差常见两种版本:

  • 偏差估计(biased)(biased)(biased)
    s2=1n∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n1i=1∑n(xi−xˉ)2

    它是偏小 的估计,平均来说小于真实的(σ2)( \sigma^2 )(σ2)。

  • 无偏估计(unbiased)(unbiased)(unbiased)
    s2=1n−1∑i=1n(xi−xˉ)2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2

    它才是我们想要的估计。

我们接下来解释------为什么用 (n−1)( n-1 )(n−1) 是合理的修正 ,而这背后就涉及到自由度的核心概念


🔍 从自由度看问题:估计过程中"用了一个自由度"

🚩 关键点:

在计算样本方差时,我们并不知道真实的总体均值 (μ)( \mu )(μ),所以我们用样本均值 (xˉ)( \bar{x} )(xˉ) 来代替。

🧩 这有什么影响?

当我们用样本均值 (xˉ)( \bar{x} )(xˉ) 时,样本数据之间就不再是完全独立的了。

举个例子:

假设你有 (n=3)( n = 3 )(n=3) 个数据点:

  • (x1=2)( x_1 = 2 )(x1=2)
  • (x2=4)( x_2 = 4 )(x2=4)
  • (x3=?)( x_3 = ? )(x3=?)
  • 样本均值为 (xˉ=5)( \bar{x} = 5 )(xˉ=5)

你能不能知道 (x3)( x_3 )(x3) 是多少?可以:

xˉ=x1+x2+x33⇒x3=3⋅5−(2+4)=15−6=9 \bar{x} = \frac{x_1 + x_2 + x_3}{3} \Rightarrow x_3 = 3 \cdot 5 - (2 + 4) = 15 - 6 = 9 xˉ=3x1+x2+x3⇒x3=3⋅5−(2+4)=15−6=9

这说明了什么?

一旦你知道了样本均值和其中 (n−1)( n - 1 )(n−1) 个样本数据,第 (n)( n )(n) 个数据就被固定了。

这就是自由度减 1 的核心原因:

  • 你本来有 (n)( n )(n) 个"可以自由变动"的数;
  • 但在计算样本均值 (xˉ)( \bar{x} )(xˉ) 时,数据被一个约束条件绑住了;
  • 所以只有 (n−1)( n - 1 )(n−1) 个数据是真正"自由的";

📉 自由度减少如何影响方差估计?

假设你错误地除以 (n)( n )(n)(不考虑自由度减少):

  • 你用 (xˉ)( \bar{x} )(xˉ) 替代了真实的 (μ)( \mu )(μ),
  • 由于 (xˉ)( \bar{x} )(xˉ) 是靠数据算出来的 ,它更贴近数据本身,比 (μ)( \mu )(μ) 更靠近数据中点;
  • 所以你计算的偏差 ((xi−xˉ)2)( (x_i - \bar{x})^2 )((xi−xˉ)2)会比 ((xi−μ)2)( (x_i - \mu)^2 )((xi−μ)2)系统性地小一点
  • 结果是:你会低估 方差(低估整体波动)(低估整体波动)(低估整体波动)。

所以,为了补偿这个"人为缩小"的误差,必须放大一下结果 ,也就是除以 (n−1)( n - 1 )(n−1) 而不是 (n)( n )(n)

这就是所谓的:

样本方差的无偏估计需要除以自由度 (n−1)( n - 1 )(n−1)


📚 数学上支持这一点的公式

我们可以证明:

E[1n∑(xi−xˉ)2]=(n−1n)σ2 \mathbb{E}\left[\frac{1}{n} \sum (x_i - \bar{x})^2 \right] = \left(\frac{n-1}{n}\right) \sigma^2 E[n1∑(xi−xˉ)2]=(nn−1)σ2

即:用 (n)( n )(n) 除的话,期望会比真实的 (σ2)( \sigma^2 )(σ2) 小。

而改成除以 (n−1)( n - 1 )(n−1):

E[1n−1∑(xi−xˉ)2]=σ2 \mathbb{E}\left[\frac{1}{n-1} \sum (x_i - \bar{x})^2 \right] = \sigma^2 E[n−11∑(xi−xˉ)2]=σ2

这样才是无偏估计。


✅ 总结:为什么要除以 (n−1)( n - 1 )(n−1)(自由度角度)

维度 解释
自由度 样本均值占用了 1 个自由度,剩下 (n−1)( n - 1 )(n−1) 个数据才能自由变化
方差的低估 使用 (xˉ)( \bar{x} )(xˉ) 作为均值会系统性低估数据的真实波动
修正手段 除以(n−1)( n - 1 )(n−1) 来"放大"估计值,使其平均值等于真实方差(无偏)
统计学意义 保证估计值在多次抽样中平均不会偏离真实值
相关推荐
芒果量化4 小时前
Optuna - 自动调参利器&python实例
开发语言·python·算法·机器学习
麦麦大数据4 小时前
D025 摩托车推荐价格预测可视化系统|推荐算法|机器学习|预测算法|用户画像与数据分析
mysql·算法·机器学习·django·vue·推荐算法·价格预测
樱花的浪漫5 小时前
Cuda reduce算子实现与优化
数据库·人工智能·深度学习·神经网络·机器学习·自然语言处理
繁依Fanyi5 小时前
Cloud Studio 免环境搭建创建机器学习环境并运行 Pytorch 案例
人工智能·pytorch·机器学习
B站_计算机毕业设计之家6 小时前
基于大数据股票数据分析与预测系统 LSTM神经网络算法 股票价格预测 Tensorflow深度学习 机器学习 Flask框架 东方财富(全套资料)✅
深度学习·神经网络·机器学习·金融·股票·预测·股价
吃饭睡觉发paper6 小时前
用于飞行时间深度去噪的空间层次感知残差金字塔网络
网络·人工智能·机器学习·计算机视觉
信息快讯6 小时前
【机器学习在智能水泥基复合材料中的应用与实践】
人工智能·机器学习·材料工程·复合材料·水泥基复合材料
JJJJ_iii7 小时前
【机器学习06】神经网络的实现、训练与向量化
人工智能·笔记·深度学习·神经网络·学习·机器学习·线性回归
末世灯光17 小时前
时间序列入门第一问:它和普通数据有什么不一样?(附 3 类典型案例)
人工智能·python·机器学习·时序数据