协方差矩阵的计算其实是把"一维协方差公式"推广到多维 。我按「定义 → 手算公式 → 矩阵形式 → 实际例子 → 常见坑」来给你一套完整、考试/科研都通用的理解。
一、先给结论(最常用公式)
设你有
- 样本数:(n)
- 特征维度:(d)
- 数据矩阵
X= \\begin{bmatrix} x_{11}\&x_{12}\&\\cdots\&x_{1d} x_{21}\&x_{22}\&\\cdots\&x_{2d} \\vdots\&\\vdots\& \&\\vdots x_{n1}\&x_{n2}\&\\cdots\&x_{nd} \\end{bmatrix}
✅ 样本协方差矩阵(最常见)
[
\boxed{
\Sigma
\frac{1}{n-1}
\sum_{i=1}^{n}
(\mathbf{x}_i-\bar{\mathbf{x}})
(\mathbf{x}_i-\bar{\mathbf{x}})^{T}
}
]
二、每个元素怎么算(最直观)
第 (j,k) 个元素是:
[
\boxed{
\text{Cov}(X_j,X_k)
\frac{1}{n-1}
\sum_{i=1}^n
(x_{ij}-\bar x_j)(x_{ik}-\bar x_k)
}
]
- 对角线:方差
- 非对角线:协方差
三、矩阵形式(线代最爱)
先对数据 去均值:
\\tilde X = X - \\mathbf{1}\\bar{\\mathbf{x}}\^{T}
协方差矩阵:
[
\boxed{
\Sigma
\frac{1}{n-1}
\tilde X^{T}\tilde X
}
]
📌 这一步在 PCA、SVD、特征分析 里非常重要。
四、一个完整手算例子(2 维)
样本:
(2,3),\\ (4,5),\\ (6,8)
1️⃣ 均值
\\bar x=4,\\quad \\bar y=\\frac{16}{3}
2️⃣ 去均值
\\begin{array}{c\|cc} \& x-\\bar x \& y-\\bar y \\hline 1 \& -2 \& -\\frac{7}{3} 2 \& 0 \& -\\frac{1}{3} 3 \& 2 \& \\frac{8}{3} \\end{array}
3️⃣ 协方差
[
\text{Cov}(x,y)
\frac{1}{2}
\left[
(-2)(-\tfrac{7}{3})
0(-\tfrac{1}{3})
2(\tfrac{8}{3})
\right]
=5
]
4️⃣ 协方差矩阵
\\boxed{ \\Sigma= \\begin{bmatrix} 4 \& 5 5 \& \\tfrac{19}{3} \\end{bmatrix} }
五、分母为什么是 (n-1)?
| 分母 | 用途 |
|---|---|
| (n) | 极大似然估计(MLE) |
| (n-1) | 无偏估计(统计/考试常用) |
👉 考试:默认用 (n-1)
👉 深度学习里有时用 (n)
六、协方差矩阵的性质(必背)
- 对称矩阵
- 半正定
- 对角线 ≥ 0
- 特征向量正交(PCA 基础)