一、协方差矩阵
当同时进行 MMM 个不同指标的试验时就需要用到线性代数。我们可能会测量年龄、身高和体重(共有 NNN 个人,每人有 M=3M=3M=3 个指标),每个试验指标都有自己的均值,因此得到一个包含 MMM 个均值的向量 m=(m1,m2,m3)\boldsymbol m=(m_1,m_2,m_3)m=(m1,m2,m3),m1,m2,m3m_1,m_2,m_3m1,m2,m3 可以是年龄、身高和体重的样本均值,也可以是它们基于已知概率的数学期望。
当我们分析方差时就需要引入矩阵了,利用与均值距离的平方,每个试验指标都有一个样本方差 Si2S_i^2Si2 或方差 σi2=E[(xi−mi)2]\sigma_i^2=\textrm E[(x_i-m_i)^2]σi2=E[(xi−mi)2],σ12,σ22,⋯ ,σM2\sigma_1^2,\sigma_2^2,\cdots,\sigma_M^2σ12,σ22,⋯,σM2 这 MMM 个数将位于这个矩阵的主对角线上。到目前为止,我们还没有在这 MMM 个试验指标之间建立联系,虽然测量的是 MMM 个不同的随机变量,但是它们之间并不是完全独立的!
如果我们测量儿童的年龄、身高和体重的结果为 (A,H,W)(A,H,W)(A,H,W),它们之间会有紧密的联系:年龄大一些的儿童通常更高、更重。假设均值 mA,mH,mWm_A,m_H,m_WmA,mH,mW 是已知的,则 σA2,σH2,σW2\sigma_A^2,\sigma_H^2,\sigma_W^2σA2,σH2,σW2 分别是年龄、身高和体重的方差。引入新的数字类似 σAH\pmb{\sigma_{AH}}σAH 这样的协方差,计算时将年龄和身高有关的数据相乘:
协方差 CovarianceσAH=E[(A−mA)(H−mH)](12.2.1)\pmb{协方差\,\textrm{Covariance}\kern 15pt\sigma_{AH}=\textrm E[(A-m_A)(H-m_H)]}\kern 20pt(12.2.1)协方差CovarianceσAH=E[(A−mA)(H−mH)](12.2.1)
这个定义需要仔细观察,要计算 σAH\sigma_{AH}σAH 只知道年龄和身高的概率是不够的,还需要知道每一对(年龄和身高)的联合概率分布(joint probability) . 这是因为年龄和身高有内在联系,它们的概率如下:
pah=P(儿童年龄为 a 且身高为 h )\pmb{p_{ah}}=P(儿童年龄为\,\pmb{a\,且}身高为 \pmb{\,h\,})pah=P(儿童年龄为a且身高为h)更一般的概率有:pij=P(试验 1 得到 xi 且 试验 2 得到 yj)\pmb{p_{ij}=P(试验\,1\,得到\,x_i\,且\,试验\,2\,得到\,y_j)}pij=P(试验1得到xi且试验2得到yj)假设试验 111 (如年龄)的均值为 m1m_1m1,试验 222(如身高)的均值为 m2m_2m2,则式(12.2.1)计算协方差需要考虑试验 111 年龄 xix_ixi 和试验 222 身高 yjy_jyj 所有的配对组合(all pairs):
协方差σ12=∑i∑jpij(xi−m1)(yj−m2)(12.2.2)\pmb{协方差\kern 19pt\sigma_{12}=\sum_i\sum_jp_{ij}(x_i-m_1)(y_j-m_2)}\kern 20pt(12.2.2)协方差σ12=i∑j∑pij(xi−m1)(yj−m2)(12.2.2)
下面两个例子可以理解 "联合概率 pijp_{ij}pij" 的思想。
【例1 】分别投掷两枚硬币,正面记为 111,反面记为 000,则结果可能为 (1,1),(1,0),(0,1)(1,1),(1,0),(0,1)(1,1),(1,0),(0,1) 或 (0,0)(0,0)(0,0). 这四种结果的概率相同 p11=p10=p01=p00=14p_{11}=p_{10}=p_{01}=p_{00}=\dfrac{1}{4}p11=p10=p01=p00=41. 独立试验的联合概率 P(X=i,Y=j)=P(X=i)P(Y=j)\pmb{P(X=i,Y=j)=P(X=i)P(Y=j)}P(X=i,Y=j)=P(X=i)P(Y=j).
【例2 】将两枚硬币粘在一起,让它们的面朝向相同。则只有两种可能的结果 (1,1)(1,1)(1,1) 和 (0,0)(0,0)(0,0),它们发生的概率是 12\dfrac{1}{2}21 和 12\dfrac{1}{2}21;概率 p10p_{10}p10 和 p01p_{01}p01 是零,由于两枚硬币是粘在一起的,所以 (1,0)(1,0)(1,0) 和 (0,1)(0,1)(0,1) 这两种情况不会发生:只有可能是同时正面朝上或同时反面朝上。例 1 和例 2 中的概率分布矩阵P=[p11p12p21p22]=[14141414]P=[120012]\begin{array}{l}\pmb{例\,1\,和例\,2\,中的}\\\pmb{概率分布矩阵}\end{array}\kern 10pt\pmb P=\begin{bmatrix}p_{11}&p_{12}\\p_{21}&p_{22}\end{bmatrix}=\begin{bmatrix}\pmb{\dfrac{1}{4}}&\pmb{\dfrac{1}{4}}\\[1.5ex]\pmb{\dfrac{1}{4}}&\pmb{\dfrac{1}{4}}\end{bmatrix}\kern 15pt\pmb P=\begin{bmatrix}\pmb{\dfrac{1}{2}}&\pmb0\\[1.5ex]\pmb0&\pmb{\dfrac{1}{2}}\end{bmatrix}例1和例2中的概率分布矩阵P=[p11p21p12p22]= 41414141 P= 210021 使用矩阵来标记 PPP 有很多优良特性。矩阵 PPP 可以展现每个配对组合 (xi,yi)(x_i,y_i)(xi,yi) 发生的概率 pijp_{ij}pij ------ 第一行中 (x1,y1)=(heads,heads), (x1,y2)=(heads,tails)(x_1,y_1)=(\textrm{heads},\textrm {heads}),\,(x_1,y_2)=(\textrm{heads},\textrm {tails})(x1,y1)=(heads,heads),(x1,y2)=(heads,tails). 注意,所有的行和 pip_ipi、所有的列和 pjp_jpj 以及所有的元素和都为 111.概率分布矩阵 Probability matrixP=[p11p12p21p22]p11+p12=p1p21+p22=p2(第一枚硬币)(第二枚硬币) 列和P1P24 个元素相加等于 1\begin{array}{ccl}\begin{array}{c}\pmb{概率分布矩阵}\\\pmb{\,\textrm{Probability\,matrix}}\end{array}&P=\begin{bmatrix}p_{11}&p_{12}\\p_{21}&p_{22}\end{bmatrix}&\begin{array}{l}p_{11}+p_{12}=\pmb{p_1}\\p_{21}+p_{22}=\pmb{p_2}\end{array}&(第一枚硬币)\\[1.5ex](第二枚硬币)\,列和&\kern 19pt\pmb{P_1}\kern 12pt\pmb{P_2}&\kern 5pt4\,个元素相加等于\,1\end{array}概率分布矩阵Probabilitymatrix(第二枚硬币)列和P=[p11p21p12p22]P1P2p11+p12=p1p21+p22=p24个元素相加等于1(第一枚硬币)数字 p1,p2p_{1},p_{2}p1,p2 和 P1,P2P_1,P_2P1,P2 称为矩阵 PPP 的边缘(marginals) :p1=p11+p12=P(硬币 1 正面朝上)硬币 2 可以正面朝上或反面朝上P1=p11+p21=P(硬币 2 正面朝上)硬币 1 可以正面朝上或反面朝上p_1=p_{11}+p_{12}=P(\pmb{硬币\,1\,}正面朝上)\kern 10pt硬币\,2\,可以正面朝上或反面朝上\\P_1=p_{11}+p_{21}=P(\pmb{硬币\,2}\,正面朝上)\kern 10pt硬币\,1\,可以正面朝上或反面朝上p1=p11+p12=P(硬币1正面朝上)硬币2可以正面朝上或反面朝上P1=p11+p21=P(硬币2正面朝上)硬币1可以正面朝上或反面朝上例 111 展示了相互独立的随机变量,每个概率 pij=pipjp_{ij}=p_ip_jpij=pipj,此例中 pij=12×12=14p_{ij}=\dfrac{1}{2}\times\dfrac{1}{2}=\dfrac{1}{4}pij=21×21=41.这种情况下协方差 σ12\pmb{\sigma_{12}}σ12 等于零。第一枚硬币的正面朝上或反面朝上无法提供第二枚硬币朝向有关的信息。
独立试验的协方差 σ12 为零V=[σ1200σ22] 是对角协方差矩阵\begin{array}{c}\pmb{独立试验的}\\\pmb{协方差\,\sigma_{12}\,为零}\end{array}\kern 15pt\pmb{V=\begin{bmatrix}\sigma^2_1&0\\0&\sigma_2^2\end{bmatrix}\,是对角协方差矩阵}独立试验的协方差σ12为零V=[σ1200σ22]是对角协方差矩阵
独立试验的 σ12=0\sigma_{12}=0σ12=0 是因为式(12.2.2)中的每个 pij=pipjp_{ij}=p_ip_jpij=pipj:σ12=∑i∑jpipj(xi−m1)(yj−m2)=[∑ipi(xi−m1)][∑jpj(yj−m2)]=0⋅0=0\sigma_{12}=\sum_i\sum_jp_ip_j(x_i-m_1)(y_j-m_2)=\Big[\sum_ip_i(x_i-m_1)\Big]\Big[\sum_jp_j(y_j-m_2)\Big]=\pmb0\cdot\pmb 0=\pmb0σ12=i∑j∑pipj(xi−m1)(yj−m2)=[i∑pi(xi−m1)][j∑pj(yj−m2)]=0⋅0=0粘在一起的硬币的朝向完全相关,一个正面向上那么另一个也是,协方差 σ12\sigma_{12}σ12 从 000 变为了 σ12=14\sigma_{12}=\dfrac{1}{4}σ12=41 ------ 这是 σ12\sigma_{12}σ12 的最大可能值:均值为 14σ12=12(1−12)(1−12)+0+0+12(0−12)(0−12)=14\pmb{均值为\,\dfrac{1}{4}\kern 13pt\sigma_{12}=\dfrac{1}{2}}\Big(1-\dfrac{1}{2}\Big)\Big(1-\dfrac{1}{2}\Big)+\pmb0+\pmb0+\pmb{\dfrac{1}{2}}\Big(0-\dfrac{1}{2}\Big)\Big(0-\dfrac{1}{2}\Big)=\pmb{\dfrac{1}{4}}均值为41σ12=21(1−21)(1−21)+0+0+21(0−21)(0−21)=41第 111 枚硬币正面朝上或反面朝上同时也给出了第 222 枚硬币朝向的完整信息:粘在一起的硬币给出了最大可能协方差奇异协方差矩阵:行列式=0Vglue=[σ12σ1σ2σ1σ2σ22]\begin{array}{l}\pmb{粘在一起的硬币给出了最大可能协方差}\\\pmb{奇异协方差矩阵:行列式=0}\end{array}\kern 10pt\pmb{V_{\textrm{glue}}=\begin{bmatrix}\sigma_1^2&\sigma_1\sigma_2\\\sigma_1\sigma_2&\sigma_2^2\end{bmatrix}}粘在一起的硬币给出了最大可能协方差奇异协方差矩阵:行列式=0Vglue=[σ12σ1σ2σ1σ2σ22]总是有 σ12σ22≥σ122\pmb{\sigma^2_1\sigma_2^2\ge\sigma_{12}^2}σ12σ22≥σ122,因此 −σ1σ2≤σ12≤σ1σ2-\sigma_1\sigma_2\le\sigma_{12}\le\sigma_1\sigma_2−σ1σ2≤σ12≤σ1σ2. 协方差矩阵 VVV 是正定 的(这种硬币粘在一起的情形,VVV 是半正定矩阵 ). 这是由关于 MMM 个不同指标的试验所得到的 MMM 阶协方差矩阵的一个重要矩阵。
注意,由 NNN 次试验得到的 样本协方差矩阵 S\pmb SS 是半正定矩阵。每个新的样本 X=(age,height,weight)X=(\textrm{age,height,weight})X=(age,height,weight) 都会影响样本均值 X‾\pmb{\overline X}X 和样本方差 S\pmb SS. 每一项 (xi−X‾)(xi−X‾)T(x_i-\overline X)(x_i-\overline X)^T(xi−X)(xi−X)T 都是半正定矩阵,相加后得到 SSS:
X‾=x1+x2+⋯+xNNS=(x1−X‾)(x1−X‾)T+(x2−X‾)(x2−X‾)T+⋯+(xN−X‾)(xN−X‾)TN−1(12.2.3)\boldsymbol{\overline X}=\dfrac{x_1+x_2+\cdots+x_N}{N}\kern 15pt\pmb S=\dfrac{(x_1-\overline X)(x_1-\overline X)^T+(x_2-\overline X)(x_2-\overline X)^T+\cdots+(x_N-\overline X)(x_N-\overline X)^T}{N-1}\kern 10pt(12.2.3)X=Nx1+x2+⋯+xNS=N−1(x1−X)(x1−X)T+(x2−X)(x2−X)T+⋯+(xN−X)(xN−X)T(12.2.3)
二、协方差矩阵 V 是半正定矩阵
我们再来考虑试验 111 和 222(两个硬币的试验)之间的期望协方差 σ12\sigma_{12}σ12:
σ12=E[(output 1−mean 1)(output 2−mean 2)]=∑i∑jpij(xi−m1)(yj−m2)(12.2.4)\sigma_{12}=\textrm E[(output\,1-mean\,1)(output\,2-mean\,2)]\\\kern 20pt\pmb{={\sum_i}\sum_jp_{ij}(x_i-m_1)(y_j-m_2)}\kern 20pt(12.2.4)σ12=E[(output1−mean1)(output2−mean2)]=i∑j∑pij(xi−m1)(yj−m2)(12.2.4)
pij≥0p_{ij}\ge0pij≥0 是试验 111 出现结果 xix_ixi 且 试验 222 出现结果 yjy_jyj 的概率。考虑所有结果之间的组合配对,则共有 N2N^2N2 种可能性,它们的概率 pijp_{ij}pij 之和等于 111.总概率(所有配对)为 1∑i∑jpij=1(12.2.5)\pmb{总概率(所有配对)为\,1\kern 20pt\sum_i\sum_jp_{ij}=1}\kern 20pt(12.2.5)总概率(所有配对)为1i∑j∑pij=1(12.2.5)这里还需要另外一个结论,在试验 111 中固定一个特定的结果 xix_ixi,在试验 222 中允许所有的结果 yjy_jyj,将这些结果 (xi,y1),(xi,y2),⋯ ,(xi,yn)(x_i,y_1),(x_i,y_2),\cdots,(x_i,y_n)(xi,y1),(xi,y2),⋯,(xi,yn) 发生的概率相加:P 的行和 pi∑j=1npij等于试验 1 中出现 xi 的概率(12.2.6)\pmb{P\,的行和\,p_i\kern 10pt\sum_{j=1}^np_{ij}等于试验\,1\,中出现\,x_i\,的概率}\kern 20pt(12.2.6)P的行和pij=1∑npij等于试验1中出现xi的概率(12.2.6)有些 yjy_jyj 一定会在试验 222 中出现!无论这两个硬币是完全分开还是粘在一起,都可以得到硬币 111 正面朝上的概率 PH=PHH+PHTP_H=P_{HH}+P_{HT}PH=PHH+PHT 为 12\dfrac{1}{2}21:(分开) PHH+PHT=14+14=12(粘在一起) PHH+PHT=12+0=12(分开)\,P_{HH}+P_{HT}=\dfrac{1}{4}+\dfrac{1}{4}=\pmb{\dfrac{1}{2}}\kern 15pt(粘在一起)\,P_{HH}+P_{HT}=\dfrac{1}{2}+0=\pmb{\dfrac{1}{2}}(分开)PHH+PHT=41+41=21(粘在一起)PHH+PHT=21+0=21利用这个基本结论可以写出一个包含有试验 111 和试验 222 各自的方差 σ12\sigma_1^2σ12 和 σ22\sigma_{2}^2σ22 以及协方差 σ12\sigma_{12}σ12 的矩阵公式,将每一个配对 (i,j)(i,j)(i,j) 对应的矩阵 VijV_{ij}Vij 相加就可以得到完整的协方差矩阵 VVV:
协方差矩阵V=∑i∑jVijV=∑i∑jpij[(xi−m1)2(xi−m1)(yj−m2)(xi−m1)(yj−m2)(yj−m2)2](12.2.7)\begin{array}{}\pmb{协方差矩阵}\\\pmb{V=\displaystyle\sum_i\sum_jV_{ij}}\end{array}\kern 10pt\pmb V=\sum_i\sum_jp_{ij}\begin{bmatrix}(x_i-m_1)^2&(x_i-m_1)(y_j-m_2)\\(x_i-m_1)(y_j-m_2)&(y_j-m_2)^2\end{bmatrix}\kern 10pt(12.2.7)协方差矩阵V=i∑j∑VijV=i∑j∑pij[(xi−m1)2(xi−m1)(yj−m2)(xi−m1)(yj−m2)(yj−m2)2](12.2.7)
上式中,非对角元素为协方差 σ12\sigma_{12}σ12,就是式(12.2.2);对角元素是普通的方差 σ12\sigma_1^2σ12 和 σ22\sigma_2^2σ22. 下面详细说明是如何利用式(12.2.6)得到 V11=σ12V_{11}=\sigma_1^2V11=σ12,因为允许所有的 jjj,只需要考虑试验 111 中 xix_ixi 发生的概率:V11=∑i∑jpij(xi−m1)2=∑iP(xi)(xi−m1)2=σ12(12.2.8)\pmb{V_{11}=\sum_i\sum_j}p_{ij}(x_i-m_1)^2=\sum_iP(x_i)(x_i-m_1)^2=\pmb{\sigma_1^2}\kern 15pt(12.2.8)V11=i∑j∑pij(xi−m1)2=i∑P(xi)(xi−m1)2=σ12(12.2.8)再仔细观察一下这个式子,这是通过式(12.2.7)生成整个协方差矩阵的关键。这个公式的美妙之处就是它结合了 2×22\times22×2 的矩阵 VijV_{ij}Vij,并且每一组的结果 i,ji,ji,j 的配对所对应的矩阵 VijV_{ij}Vij 都是半正定的 :Vij 的对角元素 pij(xi−m1)2≥0,pij(yj−m2)2≥0,且有 det(Vij)=0V_{ij}\,的对角元素\,p_{ij}(x_i-m_1)^2\ge0,\kern 3ptp_{ij}(y_j-m_2)^2\ge0,\kern 2pt且有\,\det(V_{ij})=0Vij的对角元素pij(xi−m1)2≥0,pij(yj−m2)2≥0,且有det(Vij)=0矩阵 VijV_{ij}Vij 的秩为 111,式(12.2.7)中的每一项都可以写成 pijp_{ij}pij 乘列向量 u\boldsymbol uu 再左乘行向量 uT\boldsymbol u^TuT:[(xi−m1)2(xi−m1)(yj−m2)(xi−m1)(yj−m2)(yj−m2)2]=[xi−m1yj−m2][xi−m1yj−m2](12.2.9)\begin{bmatrix}(x_i-m_1)^2&(x_i-m_1)(y_j-m_2)\\(x_i-m_1)(y_j-m_2)&(y_j-m_2)^2\end{bmatrix}=\begin{bmatrix}x_i-m_1\\y_j-m_2\end{bmatrix}\begin{bmatrix}x_i-m_1&y_j-m_2\end{bmatrix}\kern 15pt(12.2.9)[(xi−m1)2(xi−m1)(yj−m2)(xi−m1)(yj−m2)(yj−m2)2]=[xi−m1yj−m2][xi−m1yj−m2](12.2.9)每个矩阵 uuT\boldsymbol u\boldsymbol u^TuuT 都是半正定的,因此整个矩阵 VVV(对矩阵 uuT\boldsymbol u\boldsymbol u^TuuT 赋权重 pij≥0p_{ij}\ge0pij≥0)至少是半正定 ------ VVV 也可能是正定的。如果两次试验相互独立,则协方差矩阵 V 是正定矩阵.\pmb{如果两次试验相互独立,则协方差矩阵\,V\,是正定矩阵.}如果两次试验相互独立,则协方差矩阵V是正定矩阵.现在我们从两个随机变量 XXX 和 YYY 扩展到 MMM 个随机变量,如年龄、身高和体重。每次试验的结果都是一个含有 MMM 个分量的向量 XXX(如每个儿童都有年龄、身高和体重这三个分量)。此时的协方差矩阵 VVV 是一个 M×MM\times MM×M 的,它是由实验结果向量 X\boldsymbol XX 及其均值 X‾=E[X]\overline{\boldsymbol X}=\textrm{\pmb {E}}[\boldsymbol X]X=E[X]:
协方差矩阵V=E[(X−X‾)(X−X‾)T](12.2.10)\pmb{协方差矩阵\kern 20pt\color{blue}V=\textrm E[(X-\overline X)(X-\overline X)^T]}\kern 20pt(12.2.10)协方差矩阵V=E[(X−X)(X−X)T](12.2.10)
注意 XXT\boldsymbol {XX}^TXXT 和 X‾ X‾T\boldsymbol{\overline X\,\overline X^T}XXT 都是列向量左乘行向量,它们是 M×MM\times MM×M 的矩阵。
当 M=1M=1M=1(111 个随机变量)时,X‾\boldsymbol{\overline{X}}X 是均值 mmm,VVV 是 σ2\sigma^2σ2. 当 M=2M=2M=2(如两枚硬币)时,X‾\pmb{\overline X}X 就是 (m1,m2)(m_1,m_2)(m1,m2),而 VVV 满足式(12.1.10). 数学期望 E\textrm EE 永远是每个可能发生的结果乘上它们相应的概率后再求和。对于年龄、身高和体重这种情况,结果可能是 X=(5岁,31英寸,48磅)\boldsymbol X=(5岁,31英寸,48磅)X=(5岁,31英寸,48磅),而它发生的概率为 p5,31,48\pmb{p_{5,31,48}}p5,31,48.
现在再考虑一个新的问题,取任意线性组合 cTX=c1X1+c2X2+⋯+cMXM\boldsymbol c^T\boldsymbol X=c_1\boldsymbol X_1+c_2\boldsymbol X_2+\cdots+c_M\boldsymbol X_McTX=c1X1+c2X2+⋯+cMXM. 如果 c=(6,2,5)\boldsymbol c=(6,2,5)c=(6,2,5),则就是 cTX=6(年龄)+2(身高)+5(体重)\boldsymbol c^T\boldsymbol X=6(年龄)+2(身高)+5(体重)cTX=6(年龄)+2(身高)+5(体重),利用线性性质得到数学期望 E[cTX]=cTE[X]=cTX‾\textrm E[\boldsymbol c^T\boldsymbol X]=\boldsymbol c^T\textrm E[\boldsymbol X]=\boldsymbol c^T\pmb{\overline X}E[cTX]=cTE[X]=cTX:E[cTX]=cTE[X]=6(期望年龄)+2(期望身高)+5(期望体重)\textrm E[\boldsymbol c^T\boldsymbol X]=\boldsymbol c^T\textrm E[\boldsymbol X]=6(期望年龄)+2(期望身高)+5(期望体重)E[cTX]=cTE[X]=6(期望年龄)+2(期望身高)+5(期望体重)更进一步,我们也可以得到 cTX\boldsymbol c^T\boldsymbol XcTX 的方差 σ2\sigma^2σ2:cTX 的方差=E[(cTX−cTX‾)(cTX−cTX‾)T]=cTE[(X−X‾)(X−X‾)T]c=cTVc(12.2.11)\begin{array}{ll}\boldsymbol c^T\boldsymbol X\,的方差&=\textrm E[(\boldsymbol c^T\boldsymbol X-\boldsymbol c^T\boldsymbol{\overline X})(\boldsymbol c^T\boldsymbol X-\boldsymbol c^T\boldsymbol{\overline X})^T]\\[0.5ex]&=\boldsymbol c^T\textrm E[(\boldsymbol X-\boldsymbol{\overline X})(\boldsymbol X-\boldsymbol{\overline X})^T]\boldsymbol c\\[0.5ex]&=\boldsymbol c^TV\boldsymbol c\end{array}\kern 20pt(12.2.11)cTX的方差=E[(cTX−cTX)(cTX−cTX)T]=cTE[(X−X)(X−X)T]c=cTVc(12.2.11)现在是关键点:cTX\boldsymbol c^T\boldsymbol XcTX 的方差不可能为负值,因此 cTVc≥0\pmb{\boldsymbol c^TV\boldsymbol c\ge0}cTVc≥0,由能量判别法可知,协方差矩阵 VVV 是半正定矩阵。
协方差矩阵 VVV 开启了概率论和线性代数之间的联系:V=QΛQTV=Q\Lambda Q^TV=QΛQT 且 λi≥0\lambda_i\ge0λi≥0,QQQ 的列向量 q1,q2,⋯ ,qM\boldsymbol q_1,\boldsymbol q_2,\cdots,\boldsymbol q_Mq1,q2,⋯,qM 是标准正交的特征向量。将协方差矩阵对角化意味着通过原始 M 个试验的组合找到 M 个独立的试验.\pmb{将协方差矩阵对角化意味着通过原始\,M\,个试验的组合找到\,M\,个独立的试验.}将协方差矩阵对角化意味着通过原始M个试验的组合找到M个独立的试验.坦白的讲: 这里对 cTVc≥0\boldsymbol c^TV\boldsymbol c\ge0cTVc≥0 的证明并不完美,期望符号 E\textrm{\pmb E}E 掩盖了联合概率 这个关键概念。我们可以直接证明 VVV 是一个半正定矩阵(至少对年龄、身高和体重这个例子),证明很简单:VVV 是每个组合(年龄,身高,体重)对应的联合概率 pahwp_{ahw}pahw 乘半正定矩阵 uuT\boldsymbol u\boldsymbol u^TuuT 的和 ,这里 u\boldsymbol uu 是 X−X‾\boldsymbol X-\boldsymbol {\overline X}X−X:
V=∑all a,h,wpahwuuT其中u=[年龄身高体重]−[年龄均值身高均值体重均值](12.2.12){\color{blue}V=\sum_{all\,a,h,w}p_{ahw}\boldsymbol u\boldsymbol u^T}\kern 10pt其中\kern 10pt{\color{blue}\boldsymbol u=\begin{bmatrix}年龄\\身高\\体重\end{bmatrix}-\begin{bmatrix}年龄均值\\身高均值\\体重均值\end{bmatrix}}\kern 20pt(12.2.12)V=alla,h,w∑pahwuuT其中u= 年龄身高体重 − 年龄均值身高均值体重均值 (12.2.12)
这类似于式(12.2.7)中抛硬币试验的 2×22\times22×2 的矩阵 VVV,只是此时 M=3M=3M=3.
数学期望 E\textrm EE 的值也可以由 pdfpdfpdf(概率密度函数,如 p(x,y,z)p(x,y,z)p(x,y,z))来求出,如果我们允许年龄、身高和体重取任意实数,代替它们现有的取值 i=0,1,2,3,⋯i=0,1,2,3,\cdotsi=0,1,2,3,⋯,我们需要用 p(x,y,z)p(x,y,z)p(x,y,z) 来代替 pahwp_{ahw}pahw,然后将求和改成积分,但是本质上仍然是 V=E[uuT]V=\textrm E[\boldsymbol u\boldsymbol u^T]V=E[uuT]:
协方差矩阵V=∫∫∫p(x,y,z)uuT dxdydz其中u=[x−x‾y−y‾z−z‾](12.2.13)\pmb{协方差矩阵\kern 10pt{\color{blue}V=\int\int\int p(x,y,z)\boldsymbol u\boldsymbol u^T\,\textrm dx\textrm dy\textrm dz}}\kern 10pt其中\kern 10pt{\color{blue}\boldsymbol u=\begin{bmatrix}x-\overline x\\y-\overline y\\z-\overline z\end{bmatrix}}\kern 18pt(12.2.13)协方差矩阵V=∫∫∫p(x,y,z)uuTdxdydz其中u= x−xy−yz−z (12.2.13)
∫∫∫p=1\int\int\int p=1∫∫∫p=1 总是成立. 例 111 和例 222 强调了强调了如何由 ppp 得到对角矩阵 VVV 或奇异矩阵 VVV:独立随机变量 X,Y,Zp(x,y,z)=p1(x)p2(y)p3(z)相关随机变量 X,Y,Zp(x,y,z)=0,除 cx+dy+ez=0 之外\begin{array}{ll}\pmb{独立随机变量\,X,Y,Z}&p(x,y,z)=\pmb{p_1(x)p_2(y)p_3(z)}\\\pmb{相关随机变量\,X,Y,Z}&p(x,y,z)=\boldsymbol 0,除\,cx+dy+ez=0\,之外\end{array}独立随机变量X,Y,Z相关随机变量X,Y,Zp(x,y,z)=p1(x)p2(y)p3(z)p(x,y,z)=0,除cx+dy+ez=0之外
三、Z = X + Y 的均值和方差
我们先讨论样本均值,XXX 有 NNN 个样本,均值(平均值)是 mxm_xmx;YYY 也有 NNN 个样本,均值为 mym_ymy,Z=X+Y\pmb{Z=X+Y}Z=X+Y 的样本均值是 mz=mx+my\pmb{m_z=m_x+m_y}mz=mx+my:
和的均值=均值的和1N∑i=1N(xi+yi)=1N∑i=1Nxi+1N∑i=1Nyi(12.2.14)\pmb{和的均值=均值的和}\kern 20pt{\color{blue}\dfrac{1}{N}\sum_{i=1}^N(x_i+y_i)=\dfrac{1}{N}\sum_{i=1}^Nx_i+\dfrac{1}{N}\sum_{i=1}^Ny_i}\kern 18pt(12.2.14)和的均值=均值的和N1i=1∑N(xi+yi)=N1i=1∑Nxi+N1i=1∑Nyi(12.2.14)
Z=X+YZ=X+YZ=X+Y 的数学期望看起来没有样本均值简单,但是结果仍然是 E[Z]=E[X]+E[Y]\pmb{\textrm E[Z]=\textrm E[X]+\textrm E[Y]}E[Z]=E[X]+E[Y],下面给出一种得到这个结果的方法。
配对组合 (xi,yi)(x_i,y_i)(xi,yi) 的联合概率为 pijp_{ij}pij,这个值取决于试验是否独立,这个我们还不知道,但是对于和 Z=X+YZ=X+YZ=X+Y 的均值来说,独立还是相关都没有关系,期望值都可以相加:E[X+Y]=∑i∑jpij(xi+yj)=∑i∑jpijxi+∑i∑jpijyj(12.2.15)\pmb{\textrm E[X+Y]}=\sum_{i}\sum_jp_{ij}(x_i+y_j)=\sum_i\sum_jp_{ij}x_i+\sum_i\sum_jp_{ij}y_j\kern 20pt(12.2.15)E[X+Y]=i∑j∑pij(xi+yj)=i∑j∑pijxi+i∑j∑pijyj(12.2.15)上述的求和都是从 111 到 NNN 个累加和,因此我们可以按照任意的顺序相加。右边的第一项,将 pijp_{ij}pij 按照概率分布矩阵 PPP 中的第 iii 行分别求和就可以得到关于 XXX 的边缘概率 pip_ipi,这样的双重求和就得到了 E[X]\textrm E[X]E[X]:∑i∑jpijxi=∑i(pi1+pi2+⋯+piN)xi=∑ipixi=E[X]\sum_i\sum_jp_{ij}x_i=\sum_i(p_{i1}+p_{i2}+\cdots+p_{iN})x_i=\sum_ip_ix_i=\textrm E[X]i∑j∑pijxi=i∑(pi1+pi2+⋯+piN)xi=i∑pixi=E[X]对于式(12.2.15)中的最后一项,将 pijp_{ij}pij 按照概率分布矩阵 PPP 中的第 jjj 列分别求和可以得到关于 YYY 的边缘概率 pjp_jpj,这些配对组合 (x1,yj),(x2,yj),⋯ ,(xN,yj)(x_1,y_j),(x_2,y_j),\cdots,(x_N,y_j)(x1,yj),(x2,yj),⋯,(xN,yj) 一起可以得到 yjy_jyj:∑i∑jpijyj=∑j(p1j+p2j+⋯+pNj)yj=∑jPjyj=E[Y]\sum_i\sum_jp_{ij}y_j=\sum_j(p_{1j}+p_{2j}+\cdots+p_{Nj})y_j=\sum_jP_jy_j=\textrm E[Y]i∑j∑pijyj=j∑(p1j+p2j+⋯+pNj)yj=j∑Pjyj=E[Y]则现在式(12.2.15)就可以表示为 E[X+Y]=E[X]+E[Y]\pmb{\textrm E[X+Y]=\textrm E[X]+\textrm E[Y]}E[X+Y]=E[X]+E[Y].
那么 Z=X+YZ=X+YZ=X+Y 的方差是什么呢?这需要综合考虑联合概率 pijp_{ij}pij 和协方差 σxy\sigma_{xy}σxy,我们将 X+YX+YX+Y 的方差分成三部分:σz2=∑i∑jpij(xi+yj−mx−my)2=∑i∑jpij(xi−mx)2+∑i∑jpij(yj−my)2+2∑i∑jpij(xi−mx)(yj−my)\begin{array}{ll}\pmb{\sigma_z^2}&=\displaystyle\sum_i\sum_jp_{ij}(x_i+y_j-m_x-m_y)^2\\&=\displaystyle\sum_i\sum_jp_{ij}(x_i-m_x)^2+\sum_i\sum_jp_{ij}(y_j-m_y)^2+2\sum_i\sum_jp_{ij}(x_i-m_x)(y_j-m_y)\end{array}σz2=i∑j∑pij(xi+yj−mx−my)2=i∑j∑pij(xi−mx)2+i∑j∑pij(yj−my)2+2i∑j∑pij(xi−mx)(yj−my)上式右侧的第一项就是 σx2\pmb{\sigma_x^2}σx2,第二项是 σy2\pmb{\sigma_y^2}σy2,最后一项是 2σxy\pmb{2\sigma_{xy}}2σxy,则Z=X+Y 的方差是σz2=σx2+σy2+2σxy(12.2.16)\pmb{Z=X+Y\,的方差\kern 15pt是\kern 15pt\sigma_z^2=\sigma_x^2+\sigma_y^2+2\sigma_{xy}}\kern 20pt(12.2.16)Z=X+Y的方差是σz2=σx2+σy2+2σxy(12.2.16)
四、Z = AX 的协方差矩阵
当 Z=X+YZ=X+YZ=X+Y 时,还有一种好的方法来分析 σz2\sigma_z^2σz2. 将 (X,Y)(X, Y)(X,Y) 视作一个列向量 X\pmb XX ,再用 1×21\times21×2 的矩阵 A=[11]A=\begin{bmatrix}1&1\end{bmatrix}A=[11] 左乘向量 X\pmb XX,则 AXA\boldsymbol XAX 就是和 Z=X+YZ=X+YZ=X+Y,式(12.2.16)中的方差 σz2\sigma_z^2σz2 可以写成矩阵的形式:σz2=[11][σx2σxyσxyσy2][11]即σz2=AVAT(12.2.17)\pmb{\sigma_z^2}=\begin{bmatrix}1&1\end{bmatrix}\begin{bmatrix}\sigma_x^2&\sigma_{xy}\\\sigma_{xy}&\sigma_y^2\end{bmatrix}\begin{bmatrix}1\\1\end{bmatrix}\kern 10pt即\kern 10pt\pmb{\sigma_z^2=AVA^T}\kern 20pt(12.2.17)σz2=[11][σx2σxyσxyσy2][11]即σz2=AVAT(12.2.17)可以看出,式(12.2.17)中的 σz2=AVAT\sigma_z^2=AVA^Tσz2=AVAT 和式(12.2.16)中的 σx2+σy2+2σxy\sigma_x^2+\sigma_y^2+2\sigma_{xy}σx2+σy2+2σxy 是一样的。
现在是重:向量 X\pmb XX 可能含有来自于 MMM 个试验结果的 MMM 个分量(不在是只有 222 个),这些试验会有一个 M×MM\times MM×M 的协方差矩阵 VX\pmb{V_X}VX,矩阵 AAA 可能是 K×MK\times MK×M 的矩阵,则 AXA\pmb XAX 就是一个含有 KKK 个分量,且每个分量都来自于 MMM 个试验结果的组合(不再只有 222 个试验结果的 111 个组合了).
KKK 维向量 Z=AX\boldsymbol Z=A\boldsymbol XZ=AX 有一个 K×KK\times KK×K 的协方差矩阵 VZV_{\pmb Z}VZ,则这个协方差矩阵有一个漂亮的公式(式(12.2.17)只是一个 1×21\times21×2 的例子):AXA\boldsymbol XAX 的协方差矩阵是 AAA 乘 (X 的协方差矩阵)(\boldsymbol X \,的协方差矩阵)(X的协方差矩阵) 乘 ATA^TAT:
Z=AX 的协方差矩阵是VZ=AVXAT(12.2.18)\pmb{Z=AX\,的协方差矩阵\kern 6pt是\kern 6ptV_Z=AV_XA^T}\kern 25pt(12.2.18)Z=AX的协方差矩阵是VZ=AVXAT(12.2.18)
这个公式展现了矩阵乘法的美妙之处,不给出它的证明,只要钦慕就可以。它在应用中大展身手!
五、相关系数 ρ\rhoρ
相关系数(Correlation) ρxy\rho_{xy}ρxy 与协方差 σxy\sigma_{xy}σxy 关系密切,它们都是衡量随机变量之间的相关性或独立性。对随机变量 xxx 和 yyy "标准化",得到新的变量 X=xσx\pmb{X=\dfrac{x}{\sigma_x}}X=σxx 和 Y=yσy\pmb{Y=\dfrac{y}{\sigma_y}}Y=σyy,它们的方差分别是 σX2=σY2=1\pmb{\sigma_X^2=\sigma_Y^2=1}σX2=σY2=1. 这就像一个向量 v\boldsymbol vv 除以它自身的长度来生成一个长度为 111 的单位向量 v∣∣v∣∣\dfrac{\boldsymbol v}{||\boldsymbol v||}∣∣v∣∣v.
随机变量 x\pmb xx 和 y\pmb yy 的相关系数就是 X\pmb XX 和 Y\pmb YY 的协方差。 如果原始的 xxx 和 yyy 的协方差是 σxy\sigma_{xy}σxy,则标准化后的 XXX 和 YYY 的协方差要除以 σx\sigma_xσx 和 σy\sigma_yσy:
相关系数 ρxy=ρxyρxρy=xρx 和 yρy 的协方差总是有−1≤ρxy≤1\boxed{\pmb{相关系数\,\rho_{xy}=\dfrac{\rho_{xy}}{\rho_x\rho_y}=\dfrac{x}{\rho_x}\,和\,\dfrac{y}{\rho_y}\,的协方差}}\kern 10pt\pmb{总是有\kern 5pt-1\le\rho_{xy}\le1}相关系数ρxy=ρxρyρxy=ρxx和ρyy的协方差总是有−1≤ρxy≤1
协方差为零表示零相关,独立随机变量的相关系数 ρxy=0\rho_{xy}=0ρxy=0.
我们知道总是有 σxy2≤σx2σy2\sigma_{xy}^2\le\sigma_x^2\sigma_y^2σxy2≤σx2σy2(协方差矩阵 VVV 至少是半正定的),则 ρxy2≤1\pmb{\rho_{xy}^2\le1}ρxy2≤1,相关系数接近 ρ=+1\rho=+1ρ=+1 表明随机变量在同一个方向强相关,它们有相同的变化趋势;负相关系数表明随机变量当 xxx 大于它的均值时,yyy 倾向于小于它的均值,它们有相反的变化趋势。
【例3 】假设 yyy 就是 −x-x−x,抛投一枚硬币的结果是 x=0x=0x=0 或 111,同样的抛投结果也记为 y=0y=0y=0 或 −1-1−1. 对于一个均匀的硬币,均值 mx=12m_x=\dfrac{1}{2}mx=21,my=−12m_y=-\dfrac{1}{2}my=−21. 协方差 σxy=−σxσy\sigma_{xy}=-\sigma_x\sigma_yσxy=−σxσy,除以 σxσy\sigma_x\sigma_yσxσy 得到相关系数 ρxy=−1\pmb{\rho_{xy}=-1}ρxy=−1. 这种情况下相关系数矩阵 RRR 的行列式为零(奇异且半正定):
相关系数矩阵R=[1ρxyρxy1]当 y=−x 时 R=[1−1−11]\boxed{\pmb{相关系数矩阵\kern 10ptR=\begin{bmatrix}1&\rho_{xy}\\\rho_{xy}&1\end{bmatrix}}}\kern 20pt\pmb{当\,y=-x\,\kern 5pt时\,\kern 5ptR=\begin{bmatrix}\kern 7pt1&-1\\-1&\kern 7pt1\end{bmatrix}}相关系数矩阵R=[1ρxyρxy1]当y=−x时R=[1−1−11]
RRR 对角线元素总是 111,因为标准化得 σX=σY=1\sigma_X=\sigma_Y=1σX=σY=1. RRR 是 xxx 和 yyy 的相关系数矩阵,也是 X=xσxX=\dfrac{x}{\sigma_x}X=σxx 和 Y=yσyY=\dfrac{y}{\sigma_y}Y=σyy 的协方差矩阵。
数字 ρxy\rho_{xy}ρxy 也称为皮尔逊系数(Pearson coefficient).
【例4 】假设随机变量 X,Y,ZX,Y,ZX,Y,Z 是相互独立的,那么矩阵 RRR 是什么?
答:RRR 是单位矩阵。根据定义,ρxx,ρyy,ρzz\rho_{xx},\rho_{yy},\rho_{zz}ρxx,ρyy,ρzz 这三个相关系数都为 111. 由独立性可以得到 ρxy,ρxz,ρyz\rho_{xy},\rho_{xz},\rho_{yz}ρxy,ρxz,ρyz 这三个交叉相关系数都为零。
相关系数矩阵 RRR 来自于协方差矩阵 VVV,当我们对协方差矩阵的每一行每一列标准化后,即第 iii 行和第 iii 列除以第 iii 个标准差 σi\sigma_iσi.
(a)R=DVDR=DVDR=DVD,其中对角矩阵 D=diag[1σ1,1σ2,⋯ ,1σM]D=\textrm{diag}\Big[\dfrac{1}{\sigma_1},\dfrac{1}{\sigma_2},\cdots,\dfrac{1}{\sigma_M}\Big]D=diag[σ11,σ21,⋯,σM1].
(b)如果协方差矩阵 VVV 是正定的,则相关系数矩阵 R=DVDR=DVDR=DVD 也是正定的。