核心案例:一个超小型"总体"
想象一家只有 5名员工 的小公司。这就是我们研究的 "总体" 。他们的月薪(单位:千元)分别是:
[20, 25, 30, 35, 40]
我们将用这个例子来计算和解释所有概念。
第一部分:总体方差与标准差
1. 定义与目标
- 方差 :衡量的是总体中每一个数据 与其总体平均数 μ 的平均平方距离 。它量化了数据的离散程度。方差越大,数据点越分散。
- 标准差 :就是方差的平方根。它的单位变得和原始数据一致,因此更直观、更常用。
2. 公式与计算步骤
第一步:计算总体平均数
总体平均数 μ = (20+25+30+35+40) / 5 = 150 / 5 = 30 (千元)
第二步:计算总体方差
总体方差的公式为:
σ² = [ Σ (Xᵢ - μ)² ] / N
σ²(读作sigma平方):总体方差。Xᵢ:总体中的每一个数据。μ:总体平均数(上一步已算出,是30)。N:总体大小(本例为5)。
我们列表计算每个数据与平均数的"距离平方":
| 月薪 | 与平均数的差 | 差的平方 |
|---|---|---|
X₁ = 20 |
20-30 = -10 |
(-10)² = 100 |
X₂ = 25 |
25-30 = -5 |
(-5)² = 25 |
X₃ = 30 |
30-30 = 0 |
0² = 0 |
X₄ = 35 |
35-30 = 5 |
5² = 25 |
X₅ = 40 |
40-30 = 10 |
10² = 100 |
| 求和 | Σ = 250 |
代入公式:
σ² = 250 / 5 = 50
结论 :这5名员工月薪的总体方差是50。它的单位是"千元的平方",不直观。
第三步:计算总体标准差
总体标准差是方差的平方根:
σ = √σ² = √50 ≈ 7.07 (千元)
结论 :总体标准差约为7.07千元 。这意味着,这5名员工的月薪,平均来看,与总体平均数(30千元)大约相差 7.07千元。这是一个非常直观的离散程度度量。
第二部分:样本方差与"n-1"之谜
现实情况 :你无法知道全公司(总体)所有人的薪水。你只能随机抽取一个样本 来估计总体的情况。
假设我们不知道上面5个人的存在,我们从中随机抽取了3个人 作为样本。假设抽到的是:[25, 30, 40]。
现在,我们的目标是:用这个样本 [25, 30, 40] 去估计 整个公司(总体)的方差 σ²。
1. 一个天真的尝试:沿用总体公式
样本平均数 x̄ = (25+30+40)/3 = 95/3 ≈ 31.67
如果我们套用总体方差公式,计算"样本内部"的方差:
Sₙ² = [ (25-31.67)² + (30-31.67)² + (40-31.67)² ] / 3 ≈ (44.49 + 2.79 + 69.39)/3 ≈ 116.67/3 ≈ 38.89
这个值 38.89 是基于样本自身平均数 x̄ 计算的,我们称它为有偏的样本方差。
2. 核心问题:为什么它是"有偏"的?
关键点在于:样本平均数 x̄ 是根据样本数据计算出来的,它天生就会"靠近"样本中的数据点,而不是总体的真正中心 μ。
- 在你计算
(xᵢ - x̄)时,这些差值会比数据与真正总体均值μ的差值(xᵢ - μ)更小。 - 因为
x̄是为了让样本数据"最拟合"而生成的中心,它牺牲了部分信息去迎合样本。 - 用更小的差值平方和去除以
n,得到的结果会系统性低估 了真实的总体方差σ²。
3. 解决方案:分母减1(贝塞尔校正)
为了纠正这种系统性低估,统计学家发现,将分母从 n 改为 n-1,可以得到对总体方差 σ² 的一个更准确、无偏的估计。
样本方差的正确公式(无偏估计) :
S² = [ Σ (xᵢ - x̄)² ] / (n - 1)
对我们样本 [25, 30, 40] 重新计算:
S² = 116.67 / (3 - 1) = 116.67 / 2 ≈ 58.33
看!这个 58.33 比之前算的 38.89 更接近我们已知的总体方差 50 。虽然一次抽样有随机性,但 S² 作为估计量,在长期大量重复抽样中,它的平均值会等于 σ²。这就是"无偏"的含义。
第三部分:公式总结与对比
| 概念 | 符号 | 公式 | 目的 | 案例结果(千人) |
|---|---|---|---|---|
| 总体方差 | σ² |
σ² = Σ(Xᵢ-μ)² / N |
描述总体自身的离散程度 | σ² = 50 |
| 总体标准差 | σ |
σ = √σ² |
描述总体离散程度(单位一致) | σ ≈ 7.07 |
| 样本方差 | S² |
S² = Σ(xᵢ-x̄)² / (n-1) |
推断/估计 总体方差 σ² |
S² ≈ 58.33 |
| 样本标准差 | S |
S = √S² |
推断/估计 总体标准差 σ |
S ≈ 7.64 |
最终总结与行动指南
-
核心逻辑链:
- 我们想了解总体 的离散程度(
σ²,σ)。 - 现实中只能获得样本。
- 用样本数据直接按总体公式算(除以
n),会系统性低估。 - 通过分母减1(
n-1) 进行校正,得到对总体参数更好的估计 (S²,S)。
- 我们想了解总体 的离散程度(
-
何时用什么:
- 如果你拥有全部数据 (如全公司考勤、全班成绩),想描述它,用总体公式 (除以
N)。 - 如果你只有调查问卷、实验抽样数据 ,想推断更大的整体,用样本公式 (除以
n-1)。现代统计软件和计算器默认都用样本公式。
- 如果你拥有全部数据 (如全公司考勤、全班成绩),想描述它,用总体公式 (除以
-
标准差 vs 方差:
- 方差:数学性质好,适合理论推导和计算(可加性等)。
- 标准差 :单位与原始数据一致,几乎永远是报告和分析的最终选择。它告诉你"典型的波动范围有多大"。
记住这个口诀:
总体描述除N,样本推断减一好。
方差平方有单位,标准开根更直观。
现在,当你在Excel中使用 VAR.S() 函数或看到统计软件输出样本标准差时,你就完全明白它背后深刻的统计思想了。
接着来专门深入探讨总体方差公式的化简形式。这些化简形式在实际计算中非常有用,尤其是在手工计算或数据量大的时候。
我们继续使用之前的核心案例来演示所有公式:
总体:5名员工的月薪(千元) [20, 25, 30, 35, 40]
已知:总体均值 μ = 30,总体大小 N = 5。
形式一:定义式
这是方差概念最根本的表达,直接体现了"与均值的平均平方距离"。
σ² = [ Σ (Xᵢ - μ)² ] / N
计算过程:
[(20-30)² + (25-30)² + (30-30)² + (35-30)² + (40-30)²] / 5
= [100 + 25 + 0 + 25 + 100] / 5
= 250 / 5
= 50
优点 :概念清晰,直接反映方差定义。
缺点 :计算步骤最多,需要先求均值 μ,再求每个差值,最后平方和。
形式二:展开化简式(由定义式直接推导)
这是最常用、最重要的化简形式。
σ² = ( Σ Xᵢ² ) / N - μ²
这个公式的意思是:总体方差 = 数据的平方的平均值 - 总体平均值的平方。
推导过程:
- 从定义式展开:
σ² = [ Σ (Xᵢ² - 2μXᵢ + μ²) ] / N - 利用求和的性质拆开:
= [ Σ Xᵢ² - 2μ Σ Xᵢ + Σ μ² ] / N - 注意:
Σ μ² = N * μ²,并且Σ Xᵢ = N * μ - 代入:
= [ Σ Xᵢ² - 2μ(Nμ) + Nμ² ] / N - 化简:
= [ Σ Xᵢ² - 2Nμ² + Nμ² ] / N = [ Σ Xᵢ² - Nμ² ] / N - 最终得到:
σ² = ( Σ Xᵢ² ) / N - μ²
计算过程:
- 计算
Σ Xᵢ²:20² + 25² + 30² + 35² + 40² = 400 + 625 + 900 + 1225 + 1600 = 4750 - 计算
( Σ Xᵢ² ) / N:4750 / 5 = 950 - 计算
μ²:30² = 900 - 代入公式:
σ² = 950 - 900
= 50
优点:
- 计算效率高,特别是当数据均值
μ是整数或已知时。 - 避免了计算每一个
(Xᵢ - μ),只需要求一次总和与平方和。 - 这是大部分统计软件在内存中计算方差的基础算法(虽然可能有数值稳定性优化)。
缺点:需要计算平方和,如果数据值很大,平方后可能溢出。
形式三:原始数据计算式
这个形式直接从原始数据出发,不需要单独先计算均值 μ。它是形式二的另一种写法。
σ² = [ N * Σ Xᵢ² - (Σ Xᵢ)² ] / N²
或者更常见地写成:
σ² = [ Σ Xᵢ² - ( (Σ Xᵢ)² / N ) ] / N
推导过程 :它由形式二 σ² = ( Σ Xᵢ² ) / N - μ² 代入 μ = ( Σ Xᵢ ) / N 得到。
σ² = ( Σ Xᵢ² ) / N - [ ( Σ Xᵢ ) / N ]²
= [ Σ Xᵢ² ] / N - [ ( Σ Xᵢ )² / N² ]
= [ N * Σ Xᵢ² - ( Σ Xᵢ )² ] / N²
= [ Σ Xᵢ² - ( ( Σ Xᵢ )² / N ) ] / N (更常用)
计算过程:
- 计算
Σ Xᵢ:20+25+30+35+40 = 150 - 计算
Σ Xᵢ²:4750(同前) - 计算
( Σ Xᵢ )² / N:150² / 5 = 22500 / 5 = 4500 - 代入公式:
σ² = (4750 - 4500) / 5
= 250 / 5
= 50
优点 :最适合手工计算 !你只需要先算出总和 Σ Xᵢ 和平方和 Σ Xᵢ² 这两个中间量,然后一步到位得到方差。无需中间计算均值。
缺点:公式看起来略显复杂,需要理解其来源。
总结对比与选择指南
| 形式 | 核心公式 | 所需中间量 | 优点 | 缺点 | 最佳适用场景 |
|---|---|---|---|---|---|
| 定义式 | Σ (Xᵢ-μ)² / N |
均值 μ, 每个差值 |
概念最清晰 | 计算步骤最繁琐 | 理解概念,小数据教学 |
| 展开化简式 | (Σ Xᵢ²)/N - μ² |
平方和 Σ Xᵢ², 均值 μ |
计算高效,逻辑清晰 | 需先求 μ |
已知 μ,或编程实现 |
| 原始数据式 | [Σ Xᵢ² - (Σ Xᵢ)²/N] / N |
总和 Σ Xᵢ, 平方和 Σ Xᵢ² |
手工计算最快,一步到位 | 公式记忆稍难 | 考试、手工计算 |