神经网络之协方差

1️⃣ 协方差的定义

协方差（Covariance）衡量 两个随机变量的线性关系强弱和方向。

对随机变量 (X)(X)(X) 和 (Y)(Y)(Y)：
cov(X,Y)=E[(X−E[X])⋅(Y−E[Y])] \text{cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X]) \cdot (Y - \mathbb{E}[Y])] cov(X,Y)=E[(X−E[X])⋅(Y−E[Y])]
对样本数据 ((X1,Y1),...,(Xn,Yn))((X_1, Y_1), \dots, (X_n, Y_n))((X1,Y1),...,(Xn,Yn))：
cov(X,Y)=1n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ) \text{cov}(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) cov(X,Y)=n−11i=1∑n(Xi−Xˉ)(Yi−Yˉ)

⚡ 核心思想：测量两个变量"共同偏离均值的程度"。

cov(X,Y)=E[(X−E[X])(Y−E[Y])] \text{cov}(X,Y) = \mathbb{E}[(X-\mathbb{E}[X])(Y-\mathbb{E}[Y])] cov(X,Y)=E[(X−E[X])(Y−E[Y])]

将样本看作向量 (X,Y)(\mathbf{X}, \mathbf{Y})(X,Y)
X=(X1,...,Xn),Y=(Y1,...,Yn) \mathbf{X} = (X_1, ..., X_n), \quad \mathbf{Y} = (Y_1, ..., Y_n) X=(X1,...,Xn),Y=(Y1,...,Yn)
中心化向量：
Xc=X−Xˉ1,Yc=Y−Yˉ1 \mathbf{X}_c = \mathbf{X} - \bar{X}\mathbf{1},\quad \mathbf{Y}_c = \mathbf{Y} - \bar{Y}\mathbf{1} Xc=X−Xˉ1,Yc=Y−Yˉ1
协方差可写为 向量内积形式 ：
cov(X,Y)=1n−1Xc⊤Yc \text{cov}(X,Y) = \frac{1}{n-1} \mathbf{X}_c^\top \mathbf{Y}_c cov(X,Y)=n−11Xc⊤Yc
几何意义：
- 内积大 → 方向相似 → 正相关
- 内积负 → 方向相反 → 负相关
- 内积为零 → 向量正交 → 无线性关系

对称性
cov(X,Y)=cov(Y,X) \text{cov}(X,Y) = \text{cov}(Y,X) cov(X,Y)=cov(Y,X)
方差是特殊情况
var(X)=cov(X,X)≥0 \text{var}(X) = \text{cov}(X,X) \ge 0 var(X)=cov(X,X)≥0
线性关系
cov(aX+b,Y)=a⋅cov(X,Y) \text{cov}(aX+b, Y) = a \cdot \text{cov}(X,Y) cov(aX+b,Y)=a⋅cov(X,Y)
cov(X,aY+b)=a⋅cov(X,Y) \text{cov}(X, aY+b) = a \cdot \text{cov}(X,Y) cov(X,aY+b)=a⋅cov(X,Y)
协方差为零 ≠ 独立

对 (d)(d)(d) 维随机变量 (X=[X1,...,Xd]⊤)(\mathbf{X} = [X_1, ..., X_d]^\top)(X=[X1,...,Xd]⊤)：
Σ=Cov(X)=[cov(X1,X1)...cov(X1,Xd) ⋮⋱⋮ cov(Xd,X1)...cov(Xd,Xd)] \Sigma = \text{Cov}(\mathbf{X}) = \begin{bmatrix} \text{cov}(X_1,X_1) & ... & \text{cov}(X_1,X_d)\ \vdots & \ddots & \vdots \ \text{cov}(X_d,X_1) & ... & \text{cov}(X_d,X_d) \end{bmatrix} Σ=Cov(X)=[cov(X1,X1)...cov(X1,Xd) ⋮⋱⋮ cov(Xd,X1)...cov(Xd,Xd)]
性质：
- 对称半正定矩阵
- 可进行特征分解 → PCA、降维、马氏距离等

协方差单位依赖，不便直接比较
通过标准化得到皮尔逊相关系数：
rXY=cov(X,Y)σXσY∈[−1,1] r_{XY} = \frac{\text{cov}(X,Y)}{\sigma_X \sigma_Y} \in [-1,1] rXY=σXσYcov(X,Y)∈[−1,1]

💡 直观理解