统计学的"测谎仪":一文搞懂方差、标准差与“N-1”的秘密

核心案例:一个超小型"总体"

想象一家只有 5名员工 的小公司。这就是我们研究的 "总体" 。他们的月薪(单位:千元)分别是:
[20, 25, 30, 35, 40]

我们将用这个例子来计算和解释所有概念。


第一部分:总体方差与标准差

1. 定义与目标

  • 方差 :衡量的是总体中每一个数据 与其总体平均数 μ平均平方距离 。它量化了数据的离散程度。方差越大,数据点越分散。
  • 标准差 :就是方差的平方根。它的单位变得和原始数据一致,因此更直观、更常用。

2. 公式与计算步骤

第一步:计算总体平均数

总体平均数 μ = (20+25+30+35+40) / 5 = 150 / 5 = 30 (千元)

第二步:计算总体方差

总体方差的公式为:
σ² = [ Σ (Xᵢ - μ)² ] / N

  • σ² (读作sigma平方):总体方差
  • Xᵢ:总体中的每一个数据。
  • μ:总体平均数(上一步已算出,是30)。
  • N:总体大小(本例为5)。

我们列表计算每个数据与平均数的"距离平方":

月薪 与平均数的差 差的平方
X₁ = 20 20-30 = -10 (-10)² = 100
X₂ = 25 25-30 = -5 (-5)² = 25
X₃ = 30 30-30 = 0 0² = 0
X₄ = 35 35-30 = 5 5² = 25
X₅ = 40 40-30 = 10 10² = 100
求和 Σ = 250

代入公式:
σ² = 250 / 5 = 50

结论 :这5名员工月薪的总体方差是50。它的单位是"千元的平方",不直观。

第三步:计算总体标准差

总体标准差是方差的平方根:
σ = √σ² = √50 ≈ 7.07 (千元)

结论总体标准差约为7.07千元 。这意味着,这5名员工的月薪,平均来看,与总体平均数(30千元)大约相差 7.07千元。这是一个非常直观的离散程度度量。


第二部分:样本方差与"n-1"之谜

现实情况 :你无法知道全公司(总体)所有人的薪水。你只能随机抽取一个样本估计总体的情况。

假设我们不知道上面5个人的存在,我们从中随机抽取了3个人 作为样本。假设抽到的是:[25, 30, 40]

现在,我们的目标是:用这个样本 [25, 30, 40]估计 整个公司(总体)的方差 σ²

1. 一个天真的尝试:沿用总体公式

样本平均数 x̄ = (25+30+40)/3 = 95/3 ≈ 31.67

如果我们套用总体方差公式,计算"样本内部"的方差:
Sₙ² = [ (25-31.67)² + (30-31.67)² + (40-31.67)² ] / 3 ≈ (44.49 + 2.79 + 69.39)/3 ≈ 116.67/3 ≈ 38.89

这个值 38.89 是基于样本自身平均数 计算的,我们称它为有偏的样本方差

2. 核心问题:为什么它是"有偏"的?

关键点在于:样本平均数 是根据样本数据计算出来的,它天生就会"靠近"样本中的数据点,而不是总体的真正中心 μ

  • 在你计算 (xᵢ - x̄) 时,这些差值会比数据与真正总体均值 μ 的差值 (xᵢ - μ) 更小
  • 因为 是为了让样本数据"最拟合"而生成的中心,它牺牲了部分信息去迎合样本。
  • 用更小的差值平方和去除以 n,得到的结果会系统性低估 了真实的总体方差 σ²

3. 解决方案:分母减1(贝塞尔校正)

为了纠正这种系统性低估,统计学家发现,将分母从 n 改为 n-1,可以得到对总体方差 σ² 的一个更准确、无偏的估计

样本方差的正确公式(无偏估计)
S² = [ Σ (xᵢ - x̄)² ] / (n - 1)

对我们样本 [25, 30, 40] 重新计算:
S² = 116.67 / (3 - 1) = 116.67 / 2 ≈ 58.33

看!这个 58.33 比之前算的 38.89 更接近我们已知的总体方差 50 。虽然一次抽样有随机性,但 作为估计量,在长期大量重复抽样中,它的平均值会等于 σ²。这就是"无偏"的含义。


第三部分:公式总结与对比

概念 符号 公式 目的 案例结果(千人)
总体方差 σ² σ² = Σ(Xᵢ-μ)² / N 描述总体自身的离散程度 σ² = 50
总体标准差 σ σ = √σ² 描述总体离散程度(单位一致) σ ≈ 7.07
样本方差 S² = Σ(xᵢ-x̄)² / (n-1) 推断/估计 总体方差 σ² S² ≈ 58.33
样本标准差 S S = √S² 推断/估计 总体标准差 σ S ≈ 7.64

最终总结与行动指南

  1. 核心逻辑链

    • 我们想了解总体 的离散程度(σ², σ)。
    • 现实中只能获得样本
    • 用样本数据直接按总体公式算(除以n),会系统性低估
    • 通过分母减1(n-1 进行校正,得到对总体参数更好的估计, S)。
  2. 何时用什么

    • 如果你拥有全部数据 (如全公司考勤、全班成绩),想描述它,用总体公式 (除以N)。
    • 如果你只有调查问卷、实验抽样数据 ,想推断更大的整体,用样本公式 (除以n-1)。现代统计软件和计算器默认都用样本公式。
  3. 标准差 vs 方差

    • 方差:数学性质好,适合理论推导和计算(可加性等)。
    • 标准差 :单位与原始数据一致,几乎永远是报告和分析的最终选择。它告诉你"典型的波动范围有多大"。

记住这个口诀:

总体描述除N,样本推断减一好。
方差平方有单位,标准开根更直观。

现在,当你在Excel中使用 VAR.S() 函数或看到统计软件输出样本标准差时,你就完全明白它背后深刻的统计思想了。

接着来专门深入探讨总体方差公式的化简形式。这些化简形式在实际计算中非常有用,尤其是在手工计算或数据量大的时候。

我们继续使用之前的核心案例来演示所有公式:

总体:5名员工的月薪(千元) [20, 25, 30, 35, 40]

已知:总体均值 μ = 30,总体大小 N = 5


形式一:定义式

这是方差概念最根本的表达,直接体现了"与均值的平均平方距离"。

σ² = [ Σ (Xᵢ - μ)² ] / N

计算过程:
[(20-30)² + (25-30)² + (30-30)² + (35-30)² + (40-30)²] / 5
= [100 + 25 + 0 + 25 + 100] / 5
= 250 / 5
= 50

优点 :概念清晰,直接反映方差定义。
缺点 :计算步骤最多,需要先求均值 μ,再求每个差值,最后平方和。


形式二:展开化简式(由定义式直接推导)

这是最常用、最重要的化简形式。

σ² = ( Σ Xᵢ² ) / N - μ²

这个公式的意思是:总体方差 = 数据的平方的平均值 - 总体平均值的平方

推导过程:

  1. 从定义式展开:σ² = [ Σ (Xᵢ² - 2μXᵢ + μ²) ] / N
  2. 利用求和的性质拆开:= [ Σ Xᵢ² - 2μ Σ Xᵢ + Σ μ² ] / N
  3. 注意:Σ μ² = N * μ²,并且 Σ Xᵢ = N * μ
  4. 代入:= [ Σ Xᵢ² - 2μ(Nμ) + Nμ² ] / N
  5. 化简:= [ Σ Xᵢ² - 2Nμ² + Nμ² ] / N = [ Σ Xᵢ² - Nμ² ] / N
  6. 最终得到:σ² = ( Σ Xᵢ² ) / N - μ²

计算过程:

  1. 计算 Σ Xᵢ²20² + 25² + 30² + 35² + 40² = 400 + 625 + 900 + 1225 + 1600 = 4750
  2. 计算 ( Σ Xᵢ² ) / N4750 / 5 = 950
  3. 计算 μ²30² = 900
  4. 代入公式:σ² = 950 - 900
    = 50

优点

  • 计算效率高,特别是当数据均值 μ 是整数或已知时。
  • 避免了计算每一个 (Xᵢ - μ),只需要求一次总和与平方和。
  • 这是大部分统计软件在内存中计算方差的基础算法(虽然可能有数值稳定性优化)。

缺点:需要计算平方和,如果数据值很大,平方后可能溢出。


形式三:原始数据计算式

这个形式直接从原始数据出发,不需要单独先计算均值 μ。它是形式二的另一种写法。

σ² = [ N * Σ Xᵢ² - (Σ Xᵢ)² ] / N²

或者更常见地写成:
σ² = [ Σ Xᵢ² - ( (Σ Xᵢ)² / N ) ] / N

推导过程 :它由形式二 σ² = ( Σ Xᵢ² ) / N - μ² 代入 μ = ( Σ Xᵢ ) / N 得到。
σ² = ( Σ Xᵢ² ) / N - [ ( Σ Xᵢ ) / N ]²
= [ Σ Xᵢ² ] / N - [ ( Σ Xᵢ )² / N² ]
= [ N * Σ Xᵢ² - ( Σ Xᵢ )² ] / N²
= [ Σ Xᵢ² - ( ( Σ Xᵢ )² / N ) ] / N (更常用)

计算过程:

  1. 计算 Σ Xᵢ20+25+30+35+40 = 150
  2. 计算 Σ Xᵢ²4750 (同前)
  3. 计算 ( Σ Xᵢ )² / N150² / 5 = 22500 / 5 = 4500
  4. 代入公式:σ² = (4750 - 4500) / 5
    = 250 / 5
    = 50

优点最适合手工计算 !你只需要先算出总和 Σ Xᵢ 和平方和 Σ Xᵢ² 这两个中间量,然后一步到位得到方差。无需中间计算均值。
缺点:公式看起来略显复杂,需要理解其来源。


总结对比与选择指南

形式 核心公式 所需中间量 优点 缺点 最佳适用场景
定义式 Σ (Xᵢ-μ)² / N 均值 μ, 每个差值 概念最清晰 计算步骤最繁琐 理解概念,小数据教学
展开化简式 (Σ Xᵢ²)/N - μ² 平方和 Σ Xᵢ², 均值 μ 计算高效,逻辑清晰 需先求 μ 已知 μ,或编程实现
原始数据式 [Σ Xᵢ² - (Σ Xᵢ)²/N] / N 总和 Σ Xᵢ, 平方和 Σ Xᵢ² 手工计算最快,一步到位 公式记忆稍难 考试、手工计算
相关推荐
顾林海2 小时前
Android文件系统安全与权限控制:给应用数据上把“安全锁”
android·面试·操作系统
青莲8432 小时前
Android 动画机制完整详解
android·前端·面试
No芒柠Exception2 小时前
从开发到上线的CI/CD 完整流程
后端·面试·架构
CCPC不拿奖不改名4 小时前
网络与API:从HTTP协议视角理解网络分层原理+面试习题
开发语言·网络·python·网络协议·学习·http·面试
程序员飞哥4 小时前
几年没面试,这次真的被打醒了!
java·面试
乌暮4 小时前
JavaEE初阶---《JUC 并发编程完全指南:组件用法、原理剖析与面试应答》
java·开发语言·后端·学习·面试·java-ee
CCPC不拿奖不改名5 小时前
计算机网络:电脑访问网站的完整流程详解+面试习题
开发语言·python·学习·计算机网络·面试·职场和发展
鹏程十八少5 小时前
破解Android悬浮窗遮挡无障碍服务难题:我在可见即可说上踩过的坑
android·前端·面试
Moment5 小时前
富文本编辑器技术选型,到底是 Prosemirror 还是 Tiptap 好 ❓❓❓
前端·javascript·面试