为了便于学习最优化方法,本系列笔记的前几章部分将与优化方法密切相关的数学基础知识作一简要介绍,本系列介绍凸优化中常用矩阵概念:二次型与正定矩阵。
二次型理论在凸优化问题设计中应用十分广泛。应用矩阵乘法运算,二次型与实对称矩阵紧密地联系在一起,从而二次型的基本问题又可以转换为实对称矩阵问题。
1. 二次型
二次型理论问题起源于化二次曲线和二次曲面的方程为标准形式的问题。推广到\(n\)维空间中,二次超曲面的一般方程为:
\\\begin{aligned} f(x_1,x_2,x_3,...,x_n)=\&a_{11}x_1\^2+a_{12}x_1x_2+...+a_{1n}x_1x_n+\\\\ \&a_{21}x_1x_2+a_{22}x_2\^{2}+...+a_{2n}x_2x_n+\\\\ \&....\\\\ \&a_{n1}x_nx_1+a_{n2}x_nx_2+...+a_{nn}x_n\^2\\\\ \&=\\sum_{i=1}\^{n}\\sum_{j=1}\^{n}a_{ij}x_ix_j \\end{aligned} \\tag{1} \\
用矩阵表示可简记为:
\\\begin{aligned} f(x_1,x_2,...,x_n)\&=(x_1,x_2,x_3,...x_n)\\left(\\begin{matrix}a_{11},a_{12},...a_{1n}\\\\ a_{21},a_{22},...,a_{2n}\\\\ a_{n1},a_{n2},...,a_{nn} \\end{matrix}\\right)\\left(\\begin{matrix}x_1\\\\x_2\\\\...\\\\x_n\\end{matrix}\\right)\\\\ \&=\\mathbf{x}\^T\\mathbf{A}\\mathbf{x} \\end{aligned} \\tag{2} \\
其中,\(x=x_1,x_2,...,x_n^{T}\),矩阵\(\mathbf{A}\) 的元素\(a_{ij}=a_{ji}\)正是二次型的\(x_ix_j\)项的系数的一半,因此二次型和它的矩阵\(\mathbf{A}\) 是相互唯一决定的,且\(\mathbf{A}=\mathbf{A}^{T}\).
2. 正定矩阵
定义1 正定矩阵的定义
如果二次型
\f(x_1,x_2,...,x_n)= \\sum_{i=1}\^{n}\\sum_{j=1}\^{n}a_{ij}x_ix_j=\\mathbf{x}\^T\\mathbf{A}\\mathbf{x} \\tag{3} \\
对于任何一组元素不全为0的向量\(\mathbf{x}=x_1,x_2,x_3,...,x_n^T\), 恒有\(f(x_1,x_2,x_3,...,x_n)=\mathbf{x}^T\mathbf{A}\mathbf{x}>0\) ,则称二次型\(f(x_1,x_2,...x_n)\)为正定 ,且称为二次型矩阵\(\mathbf{A}\) 也称为正定的 ,其简记为\(\mathbf{A}\succ0\).
简而言之,一个对称矩阵的\(\mathbf{A}\) 如果是正定的,则其二次型\(f(x_1,x_2,...x_n)=\mathbf{x}^{T}\mathbf{A}\mathbf{x}\) 对于所有非零向量\(\mathbf{x}\) 其值总为正。 类似地,可以给出定义,若二次型\(f(x_1,x_2,...,x_n)=\mathbf{x}^T\mathbf{A}\mathbf{x}\geq0\) ,则\(\mathbf{A}\) 为半正定矩阵 ,定义为\(\mathbf{A}\succeq{0}\) ; 若\(\mathbf{x}^{T}\mathbf{A}\mathbf{x}\leq0\),则\(\mathbf{A}\) 为负定矩阵 ,简记为\(\mathbf{A}\preceq{0}\);若二次型\(\mathbf{x}^T\mathbf{A}\mathbf{x}\) 既不是半正定的,也不是半负定的,就称为矩阵\(\mathbf{A}\) 为不定的。
矩阵\(\mathbf{A}\)为正定的的充要条件是它的行列式的 \(\det(\mathbf{A})\) 顺序主子式全部大于零,即:
\a_{11}\>0,\\left\|\\begin{matrix}a_{11},a_{12}\\\\ a_{21},a_{22}\\end{matrix}\\right\|\>0,\\left\|\\begin{matrix}a_{11},\&a_{12},...,a_{1n}\\\\ a_{21},\&a_{22},...,a_{2n}\\\\ ...,\&...\\\\a_{n1},\&a_{n2},..., a_{nn}\\end{matrix}\\right\| \\tag{4} \\
由此可见,正定矩阵必然是非奇异的。 由此总结:对于实对称矩阵\(\mathbf{A}\),下面几个命题之间是互相等价的:
- \(\mathbf{A}\)是正定矩阵;
- \(\mathbf{A}\) 的所有主子式都是正数;
- \(\mathbf{A}\) 的各级顺序主子式都是正数;
下面我们简单讨论以下的正定矩阵的特征值性质:
性质1: 实对称矩阵\(\mathbf{A}\) 是正定矩阵等价于\(\mathbf{A}\) 的特征值全是正数。
证明:记\(\lambda\)为\(\mathbf{A}\) 的一个特征值\(\lambda\) , \(\mathbf{v}\) 是对应于\(\lambda\) 的一个特征向量,于是 \(\mathbf{A}\mathbf{v}=\lambda\mathbf{v}\) ,进而得到如下的
\\\lambda\|\\mathbf{v}\|\^2=\\mathbf{v}\^T\\mathbf{A}\\mathbf{v} \\tag{5} \\
又因为 \(|\alpha|^2>0\),于是 \(\lambda>0\)。
若\(\mathbf{A}\) 的任一特征值都是正数,则对于任一非零向量\(\mathbf{v}\) ,均有\(\mathbf{v}^T\mathbf{A}\mathbf{v}>0\), 于是\(\mathbf{A}\) 为正定矩阵。
性质2: 若实对称矩阵\(\mathbf{A}\)是正定矩阵,则存在唯一的正定矩阵\(\mathbf{S}\),是使得\(\mathbf{A}=\mathbf{S}^2\)。
证明:存在性,由于\(\mathbf{A}\) 是正定矩阵,由此存在正交矩阵\(\mathbf{Q}\) 使得:
\\\mathbf{A}=\\mathbf{Q}\\mathbf{D}\\mathbf{Q}\^T \\tag{6} \\
其中:\(\mathbf{D}=dialog(\lambda_1,\lambda_2,....,\lambda_n)\),其中\(\lambda_i\) 为矩阵\(\mathbf{A}\) 的特征值,由于 \(\lambda_i>0\),于是正定矩阵\(\mathbf{A}\)可以写为如下:
\\\mathbf{A}=\\mathbf{Q}\\begin{bmatrix}\&\\sqrt\\lambda_1\& \& \&\\\\\& \&\\sqrt\\lambda_2 \& \&\\\\ \& \& \&\\cdots \& \\\\ \& \& \& \&\\sqrt\\lambda_n\\end{bmatrix}\\mathbf{Q}\^T\\mathbf{Q}\\begin{bmatrix}\&\\sqrt\\lambda_1\& \& \&\\\\\& \&\\sqrt\\lambda_2 \& \&\\\\ \& \& \&\\cdots \& \\\\ \& \& \& \&\\sqrt\\lambda_n\\end{bmatrix}\\mathbf{Q}\^T \\tag{7} \\
记 \(\mathbf{S}\):
\\\mathbf{S}=\\mathbf{Q}\\begin{bmatrix}\&\\sqrt\\lambda_1\& \& \&\\\\\& \&\\sqrt\\lambda_2 \& \&\\\\ \& \& \&\\cdots \& \\\\ \& \& \& \&\\sqrt\\lambda_n\\end{bmatrix}\\mathbf{Q}\^T \\tag{8} \\
即有\(\mathbf{A}=\mathbf{S}^2\) 。由于 \(\mathbf{S}\)的特征值\(\sqrt{\lambda_i}\) 均为正数,因此\(\mathbf{S}\) 也是正定矩阵。
唯一性:假设存在两个正定矩阵\(\mathbf{S}_1\)和\(\mathbf{S}_2\) ,满足:
\\\mathbf{A}=\\mathbf{S}_1\^2=\\mathbf{S}_2\^2 \\tag{9} \\
需要证明\(\mathbf{S}_1=\mathbf{S}_2\) 。这里采用特征值分解的几何意义来证明:
- 特征值关系:设\(\lambda\)是\(\mathbf{A}\) 的任意一个特征值,\(\mu\) 是\(\mathbf{S}_1\) 的对应特征值,则 \(\mu^2=\lambda\)。由于正定矩阵的特征值均为正数,因此\(\mu\) 必须取正值\(\sqrt{\lambda}\)。同理,\(\mathbf{S}_2\)对应于同一特征值\(\lambda\) 的特征值也必然是\(\sqrt{\lambda}\) 。因此,\(\mathbf{S}_1\)和\(\mathbf{S}_2\) 的特征值完全相同。
- 特征值子空间关系:令\(\{\lambda_1,\lambda_2,\cdots,\lambda_s\}\) 为\(\mathbf{A}\) 的全体互异特征值,设 \(\mathbf{V}_i\) 为\(\mathbf{A}\) 关于特征值\(\lambda_i\) 的特征子空间。
- 因为 \(\mathbf{S}_1^{2}=\mathbf{A}\),若\(\mathbf{x}\in{\mathbf{V}_i}\) ,则\(\mathbf{A}\mathbf{x}=\lambda_i\mathbf{x}\),代入得\(\mathbf{S}_1^2\mathbf{x}=\lambda_i\mathbf{x}\) 。这说明\(\mathbf{x}\) 同时也是\(\mathbf{S}_1^2\) 的特征向量。通过谱映射定理可知,\(\mathbf{x}\) 属于\(\mathbf{S}_1\) 关于特征值\(\sqrt{\lambda_i}\) 的特征子空间。
- 即\(\mathbf{A}\)的特征子空间\(\mathbf{V}_i\) 恰好就是 \(\mathbf{S}_1\) 关于特征值\(\sqrt{\lambda_i}\) 的特征子空间。
- 唯一确定:同样的推理也适用于\(\mathbf{S}_2\)。因此,\(\mathbf{S}_1\)和\(\mathbf{S}_2\) 具有完全相同的特征值(都是\(\sqrt{\lambda_i}\))和完全相同的特征子空间(都是\(\mathbf{V}_i\))。对于一个实对称矩阵的矩阵(可正交对角化),它的特征值和特征子空间唯一决定了矩阵本身。因此,\(\mathbf{S}_1=\mathbf{S}_2\)。
综上所述,实对称正定矩阵\(\mathbf{A}\) 存在唯一的正定平方根\(\mathbf{S}\),使得\(\mathbf{A}=\mathbf{S}^2\)。
性质2 :若\(\mathbf{A},\mathbf{B}\) 都是\(n\times{n}\)正定矩阵,则\(\mathbf{AB}\) 的特征值都是正数。
证明:由于\(\mathbf{A},\mathbf{B}\) 为正定矩阵,于是根据性质2可知,存在正定矩阵\(\mathbf{C}\) 满足\(\mathbf{A}=\mathbf{C}^2\)。下面考虑矩阵\(\mathbf{C}^{-1}\mathbf{A}\mathbf{B}\mathbf{C}\)。注意到:
\(\\mathbf{C}\^{-1}\\mathbf{AB}\\mathbf{C})\^T=\\mathbf{CABC\^{-1}}=\\mathbf{CBC}=\\mathbf{C}\^{-1}\\mathbf{AB}\\mathbf{C} \\tag{10} \\
于是\(\mathbf{C}^{-1}\mathbf{ABC}\) 是一个实对称矩阵,又因为存在正定矩阵\(\mathbf{D}\) 满足\(\mathbf{B}=\mathbf{D}^2\)。于是对于任一个非零的向量\(\boldsymbol{\alpha}\in\mathbb{R}^n\).
\\\boldsymbol{\\alpha}\^T\\mathbf{C}\^{-1}\\mathbf{ABC}\\boldsymbol{\\alpha}=\\boldsymbol{\\alpha}\^T\\mathbf{C}\\mathbf{B}\\mathbf{C}\\boldsymbol{\\alpha}=(\\mathbf{DC}\\boldsymbol{\\alpha},\\mathbf{DC}\\boldsymbol{\\alpha})\\geq0\\tag{11} \\
上面不等式的等号不成立,应为,\(\mathbf{DC}\) 为满秩矩阵,进而 \(\mathbf{DC}\boldsymbol{\alpha}\neq{0}\)。因此,\(\mathbf{C}^{-1}\mathbf{ABC}\) 是正定矩阵,于是它的所有特征值也是正数。