关于样本方差为什么除以 n-1

今天上午集训摸鱼看到同学给我发的这个问题感觉挺有意思的

感性理解

这一部分的内容仅代表本蒟蒻没看严谨证明之前的个人见解,如果您想看严谨的证明,请翻到下一部分

还是先把图放上来罢省的有人不知道讲的什么东西

呃我知道这是生物竞赛的东西(不过生物信息学都开始教图论了我讲这玩意有什么问题)

没错我们讨论的就是:我在我的垃圾箱里翻出的有关于方差的知识下面的分母是 n n n 但是在这里却变成了 n − 1 n-1 n−1

从非低级数学的角度思考

我们这里所计算的方差是样本的方差,先来思考一下我们为什么要计算样本方差

没错。因为总体太多了,只能根据样本估计总体

那么为什么要去算方差?

以这道题来看是为了去分析遗传有关的东西

ok那现在就可以开始我们的感性理解了

我们需要去算一个总体的值是因为我们要根据这个值来决定下面的结论或操作,如果我们的估计比原来的大还在可接受范围内,那么我们是大可以放心的去干的。但是如果估计的可能比原来的小,那么就比较危险了,这是我们所不希望看到的。

所以这个时候在计算方差的时候人为的把方差变的大一些,或许就可以保证估计在可接受范围内了?

其实很显然这样理解有点道理但不多(那个 n − 1 n-1 n−1 总不能是模拟退火退出来的罢)

所以我们就需要严谨的证明

严谨的数学证明

参考文章

其实你直接去看参考文章可能体验会更好

设样本均值为 X ˉ \bar{X} Xˉ ,样本方差为 S 2 S^2 S2 ,总体均值为 μ \mu μ ,总体方差为 σ 2 \sigma^2 σ2 ,那么样本方差 S 2 S^2 S2 有如下公式:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n−11i=1∑n(xi−Xˉ)2

其实如果你百度过,会知道要除以 n − 1 n-1 n−1 这个是一个无偏估计

无偏估计

以例子来说明,假如你想知道在 wz 学生的平均身高是多少,全部统计有点不现实,但是你可以先随机挑选 100 个人,统计他们的身高,然后计算出他们的平均值,记为 X 1 ‾ \overline{X_1} X1 。如果你只是把 X 1 ‾ \overline{X_1} X1 作为整体的身高平均值,误差肯定很大,因为你再随机挑选出 100 个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为: X 2 ‾ 、 X 3 ‾ 、 ⋯ X k ‾ \overline{X_2} 、 \overline{X_3} 、 \cdots \overline{X_k} X2、X3、⋯Xk 然后再把这些平均值,再做平均,记为: E ( X ˉ ) E(\bar{X}) E(Xˉ) ,这样的结果肯定比只计算一次更加精确, 随着重复抽取的次数增多,这个期望值会越来越接近总体均值 μ \mu μ ,如果满足 E ( X ˉ ) = μ E(\bar{X})=\mu E(Xˉ)=μ ,这就是一个无偏估计,其中统计的样本均值也是一个随机变量, X ˉ i \bar{X}_i Xˉi 就是 X ˉ \bar{X} Xˉ 的一个取值。无偏估计的意义是 : 在多次重复下,它们的平均数接近所估计的参数真值。

介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
S 2 = 1 n ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n1i=1∑n(xi−Xˉ)2

那么根据无偏估计的定义去抄大佬推的式子:

E ( S 2 ) = E ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) \begin{aligned} & E\left(S^2\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right)=E\left(\frac{1}{n} \sum_{i=1}^n\left(\left(x_i-\mu\right)-(\bar{X}-\mu)\right)^2\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(\left(x_i-\mu\right)^2-2\left(x_i-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right)\right) \\ = & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \end{aligned} ===E(S2)E(n1i=1∑n(xi−Xˉ)2)=E(n1i=1∑n((xi−μ)−(Xˉ−μ))2)E(n1i=1∑n((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2))E(n1i=1∑n(xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)

注意最后的中间那一项:

∵ 1 n ∑ i = 1 n ( x i − μ ) = 1 n ∑ i = 1 n x i − μ = X ˉ − μ \begin{aligned}& \because \frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)=\frac{1}{n} \sum_{i=1}^n x_i-\mu=\bar{X}-\mu \end{aligned} ∵n1i=1∑n(xi−μ)=n1i=1∑nxi−μ=Xˉ−μ

可得:
E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 1 n ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 ( X ˉ − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 − ( X ˉ − μ ) 2 ) = E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) ≤ σ 2 \begin{aligned} & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-2(\bar{X}-\mu)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2-(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-E\left((\bar{X}-\mu)^2\right) \leq \sigma^2 \end{aligned} E(n1i=1∑n(xi−μ)2−n1i=1∑n2(xi−μ)(Xˉ−μ)+n1i=1∑n(Xˉ−μ)2)=E(n1i=1∑n(xi−μ)2−2(Xˉ−μ)(Xˉ−μ)+(Xˉ−μ)2)=E(n1i=1∑n(xi−μ)2−(Xˉ−μ)2)=E(n1i=1∑n(xi−μ)2)−E((Xˉ−μ)2)≤σ2

由上式可以看出如果除以 n n n,那么样本方差比总体方差的值偏小,我们需要进行修正,使得样本方差是总体方差的无偏估计。

我们接着上式继续化简:
E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − E ( ( X ˉ − μ ) 2 ) = Var ⁡ ( X ) − Var ⁡ ( X ˉ ) = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned} & E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-E\left((\bar{X}-\mu)^2\right) \\ & =\operatorname{Var}(X)-\operatorname{Var}(\bar{X}) \\ & =\sigma^2-\frac{1}{n} \sigma^2 \\ & =\frac{n-1}{n} \sigma^2 \end{aligned} E(n1i=1∑n(xi−μ)2)−E((Xˉ−μ)2)=Var(X)−Var(Xˉ)=σ2−n1σ2=nn−1σ2

最后我们就得到了 this:

E ( S 2 ) = n − 1 n σ 2 E\left(S^2\right)=\frac{n-1}{n} \sigma^2 E(S2)=nn−1σ2

如果让我们假设的样本方差 S 2 S^2 S2 乘以 n n − 1 \frac{n}{n-1} n−1n ,即修正成如下形式,就可以得到样本方差是总体方差 σ 2 \sigma^2 σ2 的无偏估计
S 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − X ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 S^2=\frac{n}{n-1}\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right)=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2 S2=n−1n(n1i=1∑n(xi−Xˉ)2)=n−11i=1∑n(xi−Xˉ)2

则:

E ( S 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − X ˉ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) − ( X ˉ − μ ) ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( ( x i − μ ) 2 − 2 ( x i − μ ) ( X ˉ − μ ) + ( X ˉ − μ ) 2 ) ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 1 n − 1 ∑ i = 1 n 2 ( x i − μ ) ( X ˉ − μ ) + 1 n − 1 ∑ i = 1 n ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x i − μ ) 2 − 2 n n − 1 ( X ˉ − μ ) ( X ˉ − μ ) + n n − 1 ( X ˉ − μ ) 2 ) = E ( 1 n − 1 ∑ i = 1 n ( x l − μ ) 2 ) − E ( n n − 1 ( X ˉ − μ ) 2 ) = n n − 1 E ( 1 n ∑ i = 1 n ( x i − μ ) 2 ) − n n − 1 E ( ( X ˉ − μ ) 2 ) = n n − 1 σ 2 − n n − 1 × σ 2 n = σ 2 \begin{aligned} & E\left(S^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{X}\right)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(\left(x_i-\mu\right)-(\bar{X}-\mu)\right)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(\left(x_i-\mu\right)^2-2\left(x_i-\mu\right)(\bar{X}-\mu)+(\bar{X}-\mu)^2\right)\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{1}{n-1} \sum_{i=1}^n 2\left(x_i-\mu\right)(\bar{X}-\mu)+\frac{1}{n-1} \sum_{i=1}^n(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\mu\right)^2-\frac{2 n}{n-1}(\bar{X}-\mu)(\bar{X}-\mu)+\frac{n}{n-1}(\bar{X}-\mu)^2\right) \\ & =E\left(\frac{1}{n-1} \sum_{i=1}^n\left(x_l-\mu\right)^2\right)-E\left(\frac{n}{n-1}(\bar{X}-\mu)^2\right) \\ & =\frac{n}{n-1} E\left(\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2\right)-\frac{n}{n-1} E\left((\bar{X}-\mu)^2\right) \\ & =\frac{n}{n-1} \sigma^2-\frac{n}{n-1} \times \frac{\sigma^2}{n} \\ & =\sigma^2 \\ & \end{aligned} E(S2)=E(n−11i=1∑n(xi−Xˉ)2)=E(n−11i=1∑n((xi−μ)−(Xˉ−μ))2)=E(n−11i=1∑n((xi−μ)2−2(xi−μ)(Xˉ−μ)+(Xˉ−μ)2))=E(n−11i=1∑n(xi−μ)2−n−11i=1∑n2(xi−μ)(Xˉ−μ)+n−11i=1∑n(Xˉ−μ)2)=E(n−11i=1∑n(xi−μ)2−n−12n(Xˉ−μ)(Xˉ−μ)+n−1n(Xˉ−μ)2)=E(n−11i=1∑n(xl−μ)2)−E(n−1n(Xˉ−μ)2)=n−1nE(n1i=1∑n(xi−μ)2)−n−1nE((Xˉ−μ)2)=n−1nσ2−n−1n×nσ2=σ2

故修正之后的样本方差的期望是总体方差的一个无偏估计,这就可以解释分母为何要除以 n − 1 n-1 n−1 了。

结语

没有结语

如果有什么地方写的不够完善,请各位大佬在评论区指出 /bx/bx/bx

相关推荐
Nu11PointerException2 小时前
JAVA笔记 | ResponseBodyEmitter等异步流式接口快速学习
笔记·学习
@小博的博客5 小时前
C++初阶学习第十弹——深入讲解vector的迭代器失效
数据结构·c++·学习
南宫生6 小时前
贪心算法习题其四【力扣】【算法学习day.21】
学习·算法·leetcode·链表·贪心算法
懒惰才能让科技进步7 小时前
从零学习大模型(十二)-----基于梯度的重要性剪枝(Gradient-based Pruning)
人工智能·深度学习·学习·算法·chatgpt·transformer·剪枝
love_and_hope7 小时前
Pytorch学习--神经网络--搭建小实战(手撕CIFAR 10 model structure)和 Sequential 的使用
人工智能·pytorch·python·深度学习·学习
Chef_Chen7 小时前
从0开始学习机器学习--Day14--如何优化神经网络的代价函数
神经网络·学习·机器学习
芊寻(嵌入式)7 小时前
C转C++学习笔记--基础知识摘录总结
开发语言·c++·笔记·学习
hong1616888 小时前
跨模态对齐与跨领域学习
学习
阿伟来咯~8 小时前
记录学习react的一些内容
javascript·学习·react.js
Suckerbin9 小时前
Hms?: 1渗透测试
学习·安全·网络安全