协方差相关问题

为什么无偏估计用 ( n − 1 ) (n-1) (n−1) 而不是 n n n,区别是什么?

在统计学中,无偏估计是指估计量的期望值等于总体参数的真实值。当我们用样本数据估计总体方差或协方差时,分母使用 ( n − 1 ) (n-1) (n−1) 而不是 n n n 是为了确保估计是无偏的。

1. 总体方差与样本方差

总体方差 σ 2 \sigma^2 σ2 定义为:
σ 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 \sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 σ2=n1i=1∑n(xi−μ)2

其中 n n n 是总体数据点数, μ \mu μ 是总体均值。

样本方差的直观定义可能是:
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_n^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn2=n1i=1∑n(xi−xˉ)2

但这个估计是有偏的。为了得到无偏估计,我们使用:
s n − 1 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s_{n-1}^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 sn−12=n−11i=1∑n(xi−xˉ)2

2. 为什么用 ( n − 1 ) (n-1) (n−1) 实现无偏估计?

直观解释

  • 样本均值的"过拟合" : x ˉ \bar{x} xˉ 是从样本计算得到的,不是固定的总体均值 μ \mu μ。这使得样本数据点相对于 x ˉ \bar{x} xˉ 的偏差比相对于 μ \mu μ 的偏差小。
  • 自由度损失 :计算 x ˉ \bar{x} xˉ 时已用掉一个自由度(因为 ∑ ( x i − x ˉ ) = 0 \sum (x_i - \bar{x}) = 0 ∑(xi−xˉ)=0),所以剩余的独立信息只有 ( n − 1 ) (n-1) (n−1) 个自由度。

数学证明

关键证明是样本方差总和的期望值:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = (n-1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2

  • 若分母用 n n n:
    E [ s n 2 ] = E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = n − 1 n σ 2 < σ 2 E[s_n^2] = E\left[ \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{n-1}{n} \sigma^2 < \sigma^2 E[sn2]=E[n1i=1∑n(xi−xˉ)2]=nn−1σ2<σ2

  • 若分母用 ( n − 1 ) (n-1) (n−1):
    E [ s n − 1 2 ] = E [ 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s_{n-1}^2] = E\left[ \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[sn−12]=E[n−11i=1∑n(xi−xˉ)2]=n−11⋅(n−1)σ2=σ2

3. 用 ( n − 1 ) (n-1) (n−1) 和 n n n 的区别

方面 分母用 ( n − 1 ) (n-1) (n−1) 分母用 n n n
估计性质 无偏估计, E [ s n − 1 2 ] = σ 2 E[s_{n-1}^2] = \sigma^2 E[sn−12]=σ2 有偏估计, E [ s n 2 ] = n − 1 n σ 2 E[s_n^2] = \frac{n-1}{n} \sigma^2 E[sn2]=nn−1σ2
数值大小 结果稍大(因为分母更小) 结果稍小(因为分母更大)
适用场景 统计推断,估计总体参数 最大似然估计或描述样本特性
样本大小影响 小样本时差异明显,大样本时差异趋近于零 同左,但偏差始终存在
  • 在小样本情况下,差异更显著(例如 n = 5 n=5 n=5 时,有偏估计为 4 5 σ 2 \frac{4}{5}\sigma^2 54σ2)
  • 在大样本情况下(如 n = 1000 n=1000 n=1000),差异很小,但理论上仍以 ( n − 1 ) (n-1) (n−1) 为标准

好的,我来更新第4部分的内容,用更详细的推导过程替代之前的版本。

4. 期望 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n-1)\sigma^2 E[∑i=1n(xi−xˉ)2]=(n−1)σ2 的详细推导

假设条件

为了推导这个期望,我们需要明确以下假设:

  • x 1 , x 2 , ... , x n x_1, x_2, \ldots, x_n x1,x2,...,xn 是从均值为 μ \mu μ、方差为 σ 2 \sigma^2 σ2 的总体中抽取的**独立同分布(i.i.d.)**随机变量。
  • 样本均值定义为: x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1∑i=1nxi。

步骤 1:表达式变换

直接计算 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] E[∑i=1n(xi−xˉ)2] 较为复杂,因为 x ˉ \bar{x} xˉ 本身是随机变量。我们可以利用一个恒等式将表达式改写为更容易处理的形式。

考虑 x i − x ˉ x_i - \bar{x} xi−xˉ 的定义:
x i − x ˉ = ( x i − μ ) − ( x ˉ − μ ) x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu) xi−xˉ=(xi−μ)−(xˉ−μ)

这里我们引入了总体均值 μ \mu μ,将偏差分解为两部分:样本值与总体均值的偏差 ( x i − μ ) (x_i - \mu) (xi−μ) 和样本均值与总体均值的偏差 ( x ˉ − μ ) (\bar{x} - \mu) (xˉ−μ)。

将这个表达式平方并求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n [ ( x i − μ ) − ( x ˉ − μ ) ] 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2 i=1∑n(xi−xˉ)2=i=1∑n[(xi−μ)−(xˉ−μ)]2

展开平方:
( x i − x ˉ ) 2 = ( x i − μ ) 2 − 2 ( x i − μ ) ( x ˉ − μ ) + ( x ˉ − μ ) 2 (x_i - \bar{x})^2 = (x_i - \mu)^2 - 2 (x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2 (xi−xˉ)2=(xi−μ)2−2(xi−μ)(xˉ−μ)+(xˉ−μ)2

对所有 i i i 求和:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) + ∑ i = 1 n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−2i=1∑n(xi−μ)(xˉ−μ)+i=1∑n(xˉ−μ)2

简化最后一项,因为 ( x ˉ − μ ) 2 (\bar{x} - \mu)^2 (xˉ−μ)2 不依赖于 i i i:
∑ i = 1 n ( x ˉ − μ ) 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (\bar{x} - \mu)^2 = n (\bar{x} - \mu)^2 i=1∑n(xˉ−μ)2=n(xˉ−μ)2

接下来处理中间项 ∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) ∑i=1n(xi−μ)(xˉ−μ):
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1∑nxi

所以:
x ˉ − μ = 1 n ∑ i = 1 n ( x i − μ ) \bar{x} - \mu = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) xˉ−μ=n1i=1∑n(xi−μ)

代入:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = ∑ i = 1 n ( x i − μ ) ⋅ 1 n ∑ j = 1 n ( x j − μ ) \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \sum_{i=1}^n (x_i - \mu) \cdot \frac{1}{n} \sum_{j=1}^n (x_j - \mu) i=1∑n(xi−μ)(xˉ−μ)=i=1∑n(xi−μ)⋅n1j=1∑n(xj−μ)

因为 ∑ j = 1 n ( x j − μ ) \sum_{j=1}^n (x_j - \mu) ∑j=1n(xj−μ) 不依赖于 i i i,可以提出:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n ∑ i = 1 n ( x i − μ ) ⋅ ∑ j = 1 n ( x j − μ ) = 1 n [ ∑ i = 1 n ( x i − μ ) ] 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \sum_{i=1}^n (x_i - \mu) \cdot \sum_{j=1}^n (x_j - \mu) = \frac{1}{n} \left[ \sum_{i=1}^n (x_i - \mu) \right]^2 i=1∑n(xi−μ)(xˉ−μ)=n1i=1∑n(xi−μ)⋅j=1∑n(xj−μ)=n1[i=1∑n(xi−μ)]2

注意到:
∑ i = 1 n ( x i − μ ) = n ( x ˉ − μ ) \sum_{i=1}^n (x_i - \mu) = n (\bar{x} - \mu) i=1∑n(xi−μ)=n(xˉ−μ)

所以:
∑ i = 1 n ( x i − μ ) ( x ˉ − μ ) = 1 n [ n ( x ˉ − μ ) ] 2 = n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = \frac{1}{n} \left[ n (\bar{x} - \mu) \right]^2 = n (\bar{x} - \mu)^2 i=1∑n(xi−μ)(xˉ−μ)=n1[n(xˉ−μ)]2=n(xˉ−μ)2

将这些结果代回原式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − 2 n ( x ˉ − μ ) 2 + n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 n (\bar{x} - \mu)^2 + n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−2n(xˉ−μ)2+n(xˉ−μ)2
= ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 =i=1∑n(xi−μ)2−n(xˉ−μ)2

我们得到了一个关键恒等式:
∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 i=1∑n(xi−xˉ)2=i=1∑n(xi−μ)2−n(xˉ−μ)2

步骤 2:计算期望

现在,对这个表达式取期望:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 \right] E[i=1∑n(xi−xˉ)2]=E[i=1∑n(xi−μ)2−n(xˉ−μ)2]

由于期望是线性的,可以分开计算:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ ∑ i = 1 n ( x i − μ ) 2 ] − E [ n ( x ˉ − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] - E\left[ n (\bar{x} - \mu)^2 \right] E[i=1∑n(xi−xˉ)2]=E[i=1∑n(xi−μ)2]−E[n(xˉ−μ)2]

第一项: E [ ∑ i = 1 n ( x i − μ ) 2 ] E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] E[∑i=1n(xi−μ)2]

因为 x i x_i xi 是 i.i.d. 的,且 E [ ( x i − μ ) 2 ] = Var ( x i ) = σ 2 E[(x_i - \mu)^2] = \text{Var}(x_i) = \sigma^2 E[(xi−μ)2]=Var(xi)=σ2:
E [ ∑ i = 1 n ( x i − μ ) 2 ] = ∑ i = 1 n E [ ( x i − μ ) 2 ] = ∑ i = 1 n σ 2 = n σ 2 E\left[ \sum_{i=1}^n (x_i - \mu)^2 \right] = \sum_{i=1}^n E[(x_i - \mu)^2] = \sum_{i=1}^n \sigma^2 = n \sigma^2 E[i=1∑n(xi−μ)2]=i=1∑nE[(xi−μ)2]=i=1∑nσ2=nσ2

第二项: E [ n ( x ˉ − μ ) 2 ] E\left[ n (\bar{x} - \mu)^2 \right] E[n(xˉ−μ)2]

首先计算 x ˉ \bar{x} xˉ 的方差:
x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i xˉ=n1i=1∑nxi

由于 x i x_i xi 是独立的:
Var ( x ˉ ) = Var ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n Var ( x i ) = 1 n 2 ⋅ n σ 2 = σ 2 n \text{Var}(\bar{x}) = \text{Var}\left( \frac{1}{n} \sum_{i=1}^n x_i \right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{\sigma^2}{n} Var(xˉ)=Var(n1i=1∑nxi)=n21i=1∑nVar(xi)=n21⋅nσ2=nσ2

因为 E [ x ˉ ] = μ E[\bar{x}] = \mu E[xˉ]=μ(样本均值无偏),所以:
E [ ( x ˉ − μ ) 2 ] = Var ( x ˉ ) = σ 2 n E[(\bar{x} - \mu)^2] = \text{Var}(\bar{x}) = \frac{\sigma^2}{n} E[(xˉ−μ)2]=Var(xˉ)=nσ2

因此:
E [ n ( x ˉ − μ ) 2 ] = n ⋅ E [ ( x ˉ − μ ) 2 ] = n ⋅ σ 2 n = σ 2 E\left[ n (\bar{x} - \mu)^2 \right] = n \cdot E[(\bar{x} - \mu)^2] = n \cdot \frac{\sigma^2}{n} = \sigma^2 E[n(xˉ−μ)2]=n⋅E[(xˉ−μ)2]=n⋅nσ2=σ2

合并结果

E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = n σ 2 − σ 2 = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = n \sigma^2 - \sigma^2 = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=nσ2−σ2=(n−1)σ2

步骤 3:验证与意义

我们得到了:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2

这表明, ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n(xi−xˉ)2 的期望值是 ( n − 1 ) σ 2 (n-1) \sigma^2 (n−1)σ2。在统计学中,样本方差定义为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 s2=n−11i=1∑n(xi−xˉ)2

其期望为:
E [ s 2 ] = 1 n − 1 E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n − 1 ⋅ ( n − 1 ) σ 2 = σ 2 E[s^2] = \frac{1}{n-1} E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n-1} \cdot (n-1) \sigma^2 = \sigma^2 E[s2]=n−11E[i=1∑n(xi−xˉ)2]=n−11⋅(n−1)σ2=σ2

这说明 s 2 s^2 s2 是总体方差 σ 2 \sigma^2 σ2 的无偏估计。

如果用 n n n 作为分母:
E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = 1 n ⋅ ( n − 1 ) σ 2 = n − 1 n σ 2 < σ 2 E\left[ \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 \right] = \frac{1}{n} \cdot (n-1) \sigma^2 = \frac{n-1}{n} \sigma^2 < \sigma^2 E[n1i=1∑n(xi−xˉ)2]=n1⋅(n−1)σ2=nn−1σ2<σ2

这表明分母用 n n n 会低估总体方差。

总结

通过将 ∑ i = 1 n ( x i − x ˉ ) 2 \sum_{i=1}^n (x_i - \bar{x})^2 ∑i=1n(xi−xˉ)2 展开为 ∑ i = 1 n ( x i − μ ) 2 − n ( x ˉ − μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 - n (\bar{x} - \mu)^2 ∑i=1n(xi−μ)2−n(xˉ−μ)2,并分别计算两项的期望,我们推导出:
E [ ∑ i = 1 n ( x i − x ˉ ) 2 ] = ( n − 1 ) σ 2 E\left[ \sum_{i=1}^n (x_i - \bar{x})^2 \right] = (n - 1) \sigma^2 E[i=1∑n(xi−xˉ)2]=(n−1)σ2

  • ∑ i = 1 n ( x i − μ ) 2 \sum_{i=1}^n (x_i - \mu)^2 ∑i=1n(xi−μ)2 的期望是 n σ 2 n \sigma^2 nσ2,表示总体偏差。
  • n ( x ˉ − μ ) 2 n (\bar{x} - \mu)^2 n(xˉ−μ)2 的期望是 σ 2 \sigma^2 σ2,反映样本均值的波动。
  • 两者的差值 ( n − 1 ) σ 2 (n-1) \sigma^2 (n−1)σ2 解释了为什么样本方差的分母用 n − 1 n-1 n−1 是无偏的。

5. 数据中心化的原理

数据中心化是将每个数据点减去均值的过程:

数学表示

  • 原始数据: x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn
  • 均值: μ = 1 n ∑ i = 1 n x i \mu = \frac{1}{n}\sum_{i=1}^n x_i μ=n1∑i=1nxi
  • 中心化数据: x i ′ = x i − μ x'_i = x_i - \mu xi′=xi−μ

几何意义

  • 将数据集平移,使中心点位于坐标原点
  • 数据分布形状不变,仅位置发生移动
  • 数据点之间的相对关系保持不变

优点

  • 消除数据的整体偏移
  • 提高数值计算的稳定性
  • 加快模型收敛速度
  • 使不同特征处于相似的尺度范围

示例

对于数据 [2, 4, 6, 8]:

  • 均值 μ = 5 \mu = 5 μ=5
  • 中心化后:[-3, -1, 1, 3]

数据中心化是统计分析和机器学习中的重要预处理步骤,有助于我们关注数据的相对变化而非绝对位置。

相关推荐
徐行tag1 天前
组合数学——二项式系数
线性代数·概率论
蹦蹦跳跳真可爱5895 天前
Python----概率论与统计(概率论,互斥事件和概率和,非互斥事件和概率和,独立性事件,生日问题,条件概率)
概率论
phoenix@Capricornus6 天前
条件概率、概率乘法公式、全概率公式和贝叶斯 (Bayes) 公式
概率论
RedMery8 天前
多元高斯分布函数
线性代数·矩阵·概率论
田梓燊9 天前
定积分的应用(4.39-4.48)
线性代数·概率论
jimmyleeee12 天前
人工智能基础知识笔记七:随机变量的几种分布
人工智能·笔记·概率论
明月看潮生12 天前
青少年编程与数学 02-015 大学数学知识点 03课题、概率论和数理统计
青少年编程·概率论·数理统计·编程与数学·大学数学
jackyrongvip16 天前
妙用《甄嬛传》中的选妃来记忆概率论中的乘法公式
概率论
lynn-6619 天前
【深度学习与大模型基础】第8章-概率分布
人工智能·算法·机器学习·概率论