文章目录
内积空间
内积空间
三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空间中向量有长度和夹角,这称为三维几何空间的度量性质。现在,我们在一般线性空间中引入度量有关的概念。
我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数,它把向量对 u , v \mathbf u,\mathbf v u,v 映射成一个数。在向量空间 V V V 中,将内积运算记为 ⟨ u , v ⟩ \lang\mathbf u,\mathbf v\rang ⟨u,v⟩,满足以下性质
- ⟨ u , v ⟩ = ⟨ v , u ⟩ \lang\mathbf u,\mathbf v\rang=\lang\mathbf v,\mathbf u\rang ⟨u,v⟩=⟨v,u⟩
- ⟨ u , v + w ⟩ = ⟨ u , v ⟩ + ⟨ u , w ⟩ \lang\mathbf u,\mathbf v+\mathbf w\rang=\lang\mathbf u,\mathbf v\rang+\lang\mathbf u,\mathbf w\rang ⟨u,v+w⟩=⟨u,v⟩+⟨u,w⟩
- c ⟨ u , v ⟩ = ⟨ c u , v ⟩ = ⟨ u , c v ⟩ c\lang\mathbf u,\mathbf v\rang=\lang c\mathbf u,\mathbf v\rang=\lang \mathbf u,c\mathbf v\rang c⟨u,v⟩=⟨cu,v⟩=⟨u,cv⟩
- ⟨ v , v ⟩ ⩾ 0 , ⟨ v , v ⟩ = 0 iff v = 0 \lang\mathbf v,\mathbf v\rang\geqslant 0,\ \lang\mathbf v,\mathbf v\rang=0\text{ iff }\mathbf v=0 ⟨v,v⟩⩾0, ⟨v,v⟩=0 iff v=0
定义了内积运算的向量空间称为内积空间(innerproductspace)。
注意,内积只给出了性质,而没给出具体的计算法则。
对于向量空间 V V V 中的任意两向量
u = u 1 e 1 + ⋯ + u n e n v = v 1 e 1 + ⋯ + v n e n \mathbf u=u_1\mathbf e_1+\cdots+u_n\mathbf e_n \\ \mathbf v=v_1\mathbf e_1+\cdots+v_n\mathbf e_n u=u1e1+⋯+unenv=v1e1+⋯+vnen
由内积的基本性质知道,其内积
⟨ u , v ⟩ = ⟨ u 1 e 1 + ⋯ + u n e n , v 1 e 1 + ⋯ + v n e n ⟩ = ∑ i , j u i v j ⟨ e i , e j ⟩ \lang\mathbf u,\mathbf v\rang =\lang u_1\mathbf e_1+\cdots+u_n\mathbf e_n,\ v_1\mathbf e_1+\cdots+v_n\mathbf e_n\rang =\sum_{i,j}u_iv_j\lang\mathbf e_i,\mathbf e_j\rang ⟨u,v⟩=⟨u1e1+⋯+unen, v1e1+⋯+vnen⟩=i,j∑uivj⟨ei,ej⟩
可见,只要知道基向量之间的内积,就可以求出任意两个向量的内积。上式用矩阵乘法表示为
⟨ u , v ⟩ = u T M v \lang\mathbf u,\mathbf v\rang=\mathbf u^TM\mathbf v ⟨u,v⟩=uTMv
其中,矩阵 M = ( δ i j ) M=(\delta_{ij}) M=(δij) 称为坐标基的度量矩阵 ,包含了基向量两两之间的内积
δ i j = ⟨ e i , e j ⟩ \delta_{ij}=\lang\mathbf e_i,\mathbf e_j\rang δij=⟨ei,ej⟩
定义:三维几何空间的度量概念也推广到向量空间中
- ∥ v ∥ = ⟨ v , v ⟩ \|\mathbf v\|=\sqrt{\lang\mathbf v,\mathbf v\rang} ∥v∥=⟨v,v⟩ 称为向量的长度 或范数;
- dist ( u , v ) = ∥ u − v ∥ \text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\| dist(u,v)=∥u−v∥ 称为向量 u , v \mathbf u,\mathbf v u,v 间的距离;
- 两向量的夹角余弦 cos θ = ⟨ u , v ⟩ ∥ u ∥ ⋅ ∥ v ∥ \cos\theta=\dfrac{\lang\mathbf u,\mathbf v\rang}{\|\mathbf u\|\cdot\|\mathbf v\|} cosθ=∥u∥⋅∥v∥⟨u,v⟩
- 若 ⟨ u , v ⟩ = 0 \lang\mathbf u,\mathbf v\rang=0 ⟨u,v⟩=0 ,则称 u , v \mathbf u,\mathbf v u,v 正交(orthogonal);
- 长度为1的向量称为单位向量;
- 如果向量空间的基向量都为单位向量且两两正交,则称为标准正交基(orthonormal basis);
性质:
- ∥ v ∥ ⩾ 0 , ∥ v ∥ = 0 iff v = 0 \|\mathbf v\|\geqslant 0,\quad \|\mathbf v\|=0\text{ iff }\mathbf v=0 ∥v∥⩾0,∥v∥=0 iff v=0
- c ∥ v ∥ = ∣ c ∣ ∥ v ∥ c\|\mathbf v\|=|c|\ \|\mathbf v\| c∥v∥=∣c∣ ∥v∥
- 勾股定理:若 u , v \mathbf u,\mathbf v u,v 是 V V V 中的正交向量,则 ∥ u + v ∥ 2 = ∥ u ∥ 2 + ∥ v ∥ 2 \|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2 ∥u+v∥2=∥u∥2+∥v∥2
- 柯西-施瓦茨不等式: ∣ ⟨ u , v ⟩ ∣ ⩽ ∥ u ∥ ⋅ ∥ v ∥ |\lang\mathbf u,\mathbf v\rang|\leqslant\|\mathbf u\|\cdot\|\mathbf v\| ∣⟨u,v⟩∣⩽∥u∥⋅∥v∥
- 三角不等式: ∥ u + v ∥ ⩽ ∥ u ∥ + ∥ v ∥ \|\mathbf u+\mathbf v\|\leqslant\|\mathbf u\|+\|\mathbf v\| ∥u+v∥⩽∥u∥+∥v∥
- 若向量组是一组两两正交的非零向量,则向量组线性无关
示例:向量空间的欧几里得内积 定义为
⟨ u , v ⟩ = u T v = u 1 v 1 + u 2 v 2 + ⋯ + u n v n \lang\mathbf u,\mathbf v\rang=\mathbf u^T\mathbf v=u_1v_1+u_2v_2+\cdots+u_nv_n ⟨u,v⟩=uTv=u1v1+u2v2+⋯+unvn
即采用的是标准正交基,度量矩阵为单位阵
δ i j = { 1 , i = j 0 , i ≠ j \delta_{ij}=\begin{cases}1, &i=j \\0, &i\neq j\end{cases} δij={1,0,i=ji=j
以后,当我们讨论内积空间时,总默认采用欧几里得内积。
正交补:设 W W W 是 V V V 的子空间,如果向量 z \mathbf z z 与子空间 W W W 中的任意向量都正交 ,则称 z \mathbf z z 正交于 W W W。与子空间 W W W 正交的全体向量的集合称为 W W W 的正交补 (orthogonal complement),并记作 W ⊥ W^{\perp} W⊥ 。
W ⊥ = { z ∈ V ∣ ∀ w ∈ W , ⟨ z , w ⟩ = 0 } W^{\perp}=\{\mathbf z\in V\mid \forall\mathbf w\in W,\lang\mathbf z,\mathbf w\rang=0\} W⊥={z∈V∣∀w∈W,⟨z,w⟩=0}
由其次方程 A x = 0 A\mathbf x=0 Ax=0 的解空间易知:
- ( row A ) ⊥ = ker A (\text{row }A)^{\perp}=\ker A (row A)⊥=kerA
- ( col A ) ⊥ = ker A T (\text{col }A)^{\perp}=\ker A^T (col A)⊥=kerAT
定理:若 z \mathbf z z 与 u 1 , u 2 , ⋯ , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,⋯,up 均正交,则 z \mathbf z z 正交于 W = span { u 1 , u 2 , ⋯ , u p } W=\text{span }\{\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p\} W=span {u1,u2,⋯,up} 。
证:对于任意 v ∈ W \mathbf v\in W v∈W ,可线性表示为
v = x 1 u 1 + x 2 u 2 + ⋯ + x p u p \mathbf v=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p v=x1u1+x2u2+⋯+xpup
由内积的性质知
⟨ z , v ⟩ = x 1 ⟨ z , u 1 ⟩ + x 2 ⟨ z , u 2 ⟩ + ⋯ + x p ⟨ z , u p ⟩ = 0 \lang\mathbf z,\mathbf v\rang=x_1\lang\mathbf z,\mathbf u_1\rang+x_2\lang\mathbf z,\mathbf u_2\rang+\cdots+x_p\lang\mathbf z,\mathbf u_p\rang=0 ⟨z,v⟩=x1⟨z,u1⟩+x2⟨z,u2⟩+⋯+xp⟨z,up⟩=0
于是可知 z \mathbf z z 正交于 W W W 。
正交矩阵与正交变换
定义:若矩阵 A A A 满足 A T A = I A^TA=I ATA=I,即 A − 1 = A T A^{-1}=A^T A−1=AT,则称 A A A 为正交矩阵。
上式用 A A A 的列向量表示,即
[ a 1 T a 2 T ⋮ a n T ] ( a 1 , a 2 , ⋯ , a n ) = I n \begin{bmatrix}\mathbf a_1^T\\ \mathbf a_2^T\\ \vdots\\\mathbf a_n^T\end{bmatrix} (\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=I_n a1Ta2T⋮anT (a1,a2,⋯,an)=In
于是得到
a i a j = { 1 , i = j 0 , i ≠ j \mathbf a_i\mathbf a_j=\begin{cases}1, &i=j\\ 0, &i\neq j\end{cases} aiaj={1,0,i=ji=j
定理:矩阵 A A A 为正交矩阵的充要条件是 A A A 的列向量都是单位向量且两两正交。
考虑到 A T A = I A^TA=I ATA=I 与 A A T = I AA^T=I AAT=I 等价,所以上述结论对 A A A 的行向量亦成立。
正交矩阵 A A A 对应的线性变换称为正交变换 。设 u , v ∈ V \mathbf u,\mathbf v\in V u,v∈V ,则变换后的内积
⟨ A u , A v ⟩ = ( A u ) T ( A v ) = u T v = ⟨ u , v ⟩ \lang A\mathbf u,A\mathbf v\rang=(A\mathbf u)^T(A\mathbf v)=\mathbf u^T\mathbf v=\lang\mathbf u,\mathbf v\rang ⟨Au,Av⟩=(Au)T(Av)=uTv=⟨u,v⟩
定理:正交变换后向量内积保持不变,从而向量的长度、距离和夹角均保持不变。
正交投影
正交分解定理:设 W W W 是 V V V 的子空间,那么对于任意 v ∈ V \mathbf v\in V v∈V 可唯一表示为
v = v ^ + z \mathbf v=\hat{\mathbf v}+\mathbf z v=v^+z
其中 v ^ ∈ W , z ∈ W ⊥ \hat{\mathbf v}\in W,\mathbf z\in W^{\perp} v^∈W,z∈W⊥ 。 v ^ \hat{\mathbf v} v^ 称为 v \mathbf v v 在 W W W 上的正交投影 (orthogonal projection),记作 proj W v \text{proj}_W\mathbf v projWv 。若 u 1 , u 2 , ⋯ , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,⋯,up 是 W W W 的任意正交基,则
v ^ = proj W v = ⟨ v , u 1 ⟩ ⟨ u 1 , u 1 ⟩ u 1 + ⟨ v , u 2 ⟩ ⟨ u 2 , u 2 ⟩ u 2 + ⋯ + ⟨ v , u p ⟩ ⟨ u p , u p ⟩ u p \hat{\mathbf v}=\text{proj}_W\mathbf v=\frac{\lang\mathbf v,\mathbf u_1\rang}{\lang\mathbf u_1,\mathbf u_1\rang}\mathbf u_1+\frac{\lang\mathbf v,\mathbf u_2\rang}{\lang\mathbf u_2,\mathbf u_2\rang}\mathbf u_2+\cdots+\frac{\lang\mathbf v,\mathbf u_p\rang}{\lang\mathbf u_p,\mathbf u_p\rang}\mathbf u_p v^=projWv=⟨u1,u1⟩⟨v,u1⟩u1+⟨u2,u2⟩⟨v,u2⟩u2+⋯+⟨up,up⟩⟨v,up⟩up
证:若 u 1 , u 2 , ⋯ , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,⋯,up 是 W W W 的任意正交基,则任意 v ∈ V \mathbf v\in V v∈V 的投影可线性表示
v ^ = x 1 u 1 + x 2 u 2 + ⋯ + x p u p \hat{\mathbf v}=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p v^=x1u1+x2u2+⋯+xpup
令 z = v − v ^ \mathbf z=\mathbf v-\hat{\mathbf v} z=v−v^ ,由于任意基向量 u j \mathbf u_j uj 与其他基向量正交且 z ∈ W ⊥ \mathbf z\in W^{\perp} z∈W⊥,则
⟨ z , u j ⟩ = ⟨ v − v ^ , u j ⟩ = ⟨ v , u j ⟩ − x j ⟨ u j , u j ⟩ = 0 \lang\mathbf z,\mathbf u_j\rang=\lang\mathbf v-\hat{\mathbf v},\mathbf u_j\rang= \lang\mathbf v,\mathbf u_j\rang-x_j\lang\mathbf u_j,\mathbf u_j\rang=0 ⟨z,uj⟩=⟨v−v^,uj⟩=⟨v,uj⟩−xj⟨uj,uj⟩=0
于是便求得了投影的系数
x j = ⟨ v , u j ⟩ ⟨ u j , u j ⟩ x_j=\frac{\lang\mathbf v,\mathbf u_j\rang}{\lang\mathbf u_j,\mathbf u_j\rang} xj=⟨uj,uj⟩⟨v,uj⟩
性质:设 W W W 是 V V V 的子空间, v ∈ V , v ^ = proj W v \mathbf v\in V,\hat{\mathbf v}=\text{proj}_W\mathbf v v∈V,v^=projWv
- (最佳逼近定理) v ^ \hat{\mathbf v} v^ 是 W W W 中最接近 v \mathbf v v 的点,即对于 ∀ w ∈ W , ∥ v − v ^ ∥ ⩽ ∥ v − w ∥ \forall\mathbf w\in W,\ \|\mathbf v-\hat{\mathbf v}\|\leqslant \|\mathbf v-\mathbf w\| ∀w∈W, ∥v−v^∥⩽∥v−w∥
- 若 U = ( u 1 , u 2 , ⋯ , u p ) U=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p) U=(u1,u2,⋯,up) 的列向量是 W W W 的单位正交基,则 proj W v = U U T v \text{proj}_W\mathbf v=UU^T\mathbf v projWv=UUTv
证:(1) 取 W W W 中的任一向量 w \mathbf w w ,由于
v − w = ( v − v ^ ) + ( v ^ − w ) \mathbf v-\mathbf w=(\mathbf v-\hat{\mathbf v})+(\hat{\mathbf v}-\mathbf w) v−w=(v−v^)+(v^−w)
由勾股定理定理知道
∥ v − w ∥ 2 = ∥ v − v ^ ∥ 2 + ∥ v ^ − w ∥ 2 \|\mathbf v-\mathbf w\|^2=\|\mathbf v-\hat{\mathbf v}\|^2+\|\hat{\mathbf v}-\mathbf w\|^2 ∥v−w∥2=∥v−v^∥2+∥v^−w∥2
由于 ∥ v ^ − w ∥ 2 ⩾ 0 \|\hat{\mathbf v}-\mathbf w\|^2\geqslant 0 ∥v^−w∥2⩾0 从而不等式得证。
(2) 由于 u 1 , u 2 , ⋯ , u p \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p u1,u2,⋯,up是 W W W 的单位正交基,那么
proj W v = ⟨ v , u 1 ⟩ u 1 + ⟨ v , u 2 ⟩ u 2 ⋯ + + ⟨ v , u p ⟩ u p = u 1 T v u 1 + u 2 T v u 2 + ⋯ + u p T v u p = U U T v \text{proj}_W\mathbf v=\lang\mathbf v,\mathbf u_1\rang\mathbf u_1+\lang\mathbf v,\mathbf u_2\rang\mathbf u_2\cdots++\lang\mathbf v,\mathbf u_p\rang\mathbf u_p\\ =\mathbf u_1^T\mathbf v\mathbf u_1+\mathbf u_2^T\mathbf v\mathbf u_2+\cdots+\mathbf u_p^T\mathbf v\mathbf u_p=UU^T\mathbf v projWv=⟨v,u1⟩u1+⟨v,u2⟩u2⋯++⟨v,up⟩up=u1Tvu1+u2Tvu2+⋯+upTvup=UUTv
施密特正交化
施密特(Schmidt)正交化 方法是将向量空间 V V V 的任意一组基 a 1 , a 2 , ⋯ , a r \mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r a1,a2,⋯,ar 构造成标准正交基 e 1 , e 2 , ⋯ , e r \mathbf e_1,\mathbf e_2,\cdots,\mathbf e_r e1,e2,⋯,er 的简单算法。
取
b 1 = a 1 b 2 = a 2 − b 1 T a 2 b 1 T b 1 b 1 b 3 = a 3 − b 1 T a 3 b 1 T b 1 b 1 − b 2 T a 3 b 2 T b 2 b 2 ⋯ b r = a r − b 1 T a r b 1 T b 1 b 1 − b 2 T a r b 2 T b 2 b 2 − ⋯ − b r − 1 T a r − 1 b r − 1 T b r − 1 b r − 1 \begin{aligned} &\mathbf b_1=\mathbf a_1 \\ &\mathbf b_2=\mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1 \\ &\mathbf b_3=\mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2 \\ &\cdots \\ &\mathbf b_r=\mathbf a_r-\frac{\mathbf b_1^T\mathbf a_r}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_r}{\mathbf b_2^T\mathbf b_2}\mathbf b_2-\cdots-\frac{\mathbf b_{r-1}^T\mathbf a_{r-1}}{\mathbf b_{r-1}^T\mathbf b_{r-1}}\mathbf b_{r-1} \\ \end{aligned} b1=a1b2=a2−b1Tb1b1Ta2b1b3=a3−b1Tb1b1Ta3b1−b2Tb2b2Ta3b2⋯br=ar−b1Tb1b1Tarb1−b2Tb2b2Tarb2−⋯−br−1Tbr−1br−1Tar−1br−1
那么 b 1 , b 2 , ⋯ , b r \mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r b1,b2,⋯,br 是 V V V 的一组正交基
V = span { a 1 , a 2 , ⋯ , a r } = span { b 1 , b 2 , ⋯ , b r } V=\text{span }\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r\}=\text{span }\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r\} V=span {a1,a2,⋯,ar}=span {b1,b2,⋯,br}
再把它们单位化
e 1 = 1 ∥ b 1 ∥ b 1 , e 2 = 1 ∥ b 2 ∥ b 2 , ⋯ , e r = 1 ∥ b r ∥ b r \mathbf e_1=\frac{1}{\|\mathbf b_1\|}\mathbf b_1,\quad\mathbf e_2=\frac{1}{\|\mathbf b_2\|}\mathbf b_2,\quad\cdots,\quad\mathbf e_r=\frac{1}{\|\mathbf b_r\|}\mathbf b_r e1=∥b1∥1b1,e2=∥b2∥1b2,⋯,er=∥br∥1br
最终获得 V V V 的一组标准正交基。
例:设 a 1 = [ 1 1 1 1 ] , a 2 = [ 0 1 1 1 ] , a 3 = [ 0 0 1 1 ] \mathbf a_1=\begin{bmatrix}1\\1\\1\\1\end{bmatrix},\mathbf a_2=\begin{bmatrix}0\\1\\1\\1\end{bmatrix},\mathbf a_3=\begin{bmatrix}0\\0\\1\\1\end{bmatrix} a1= 1111 ,a2= 0111 ,a3= 0011 是子空间 V V V的一组基,试构造 V V V 的一组正交基
解:step 1 取第一个基向量 b 1 = a 1 , W 1 = span { a 1 } = span { b 1 } \mathbf b_1=\mathbf a_1,W_1=\text{span}\{\mathbf a_1\}=\text{span}\{\mathbf b_1\} b1=a1,W1=span{a1}=span{b1}
step 2 取第二个基向量
b 2 = a 2 − proj W 1 a 2 = a 2 − b 1 T a 2 b 1 T b 1 b 1 = [ 0 1 1 1 ] − 3 4 [ 1 1 1 1 ] = [ − 3 / 4 1 / 4 1 / 4 1 / 4 ] \mathbf b_2=\mathbf a_2-\text{proj}_{W_1}\mathbf a_2= \mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1\\ =\begin{bmatrix}0\\1\\1\\1\end{bmatrix}-\frac{3}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}= \begin{bmatrix}-3/4\\1/4\\1/4\\1/4\end{bmatrix} b2=a2−projW1a2=a2−b1Tb1b1Ta2b1= 0111 −43 1111 = −3/41/41/41/4
为计算方便,缩放 b 2 = ( − 3 , 1 , 1 , 1 ) T \mathbf b_2=(-3,1,1,1)^T b2=(−3,1,1,1)T 。同样取 W 2 = span { b 1 , b 2 } W_2=\text{span}\{\mathbf b_1,\mathbf b_2\} W2=span{b1,b2}
step 3 取第三个基向量
b 3 = a 3 − proj W 2 a 3 = a 3 − b 1 T a 3 b 1 T b 1 b 1 − b 2 T a 3 b 2 T b 2 b 2 = [ 0 0 1 1 ] − 2 4 [ 1 1 1 1 ] − 2 12 [ − 3 1 1 1 ] = [ 0 − 2 / 3 1 / 3 1 / 3 ] \mathbf b_3=\mathbf a_3-\text{proj}_{W_2}\mathbf a_3= \mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2\\ =\begin{bmatrix}0\\0\\1\\1\end{bmatrix}- \frac{2}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}- \frac{2}{12}\begin{bmatrix}-3\\1\\1\\1\end{bmatrix}= \begin{bmatrix}0\\-2/3\\1/3\\1/3\end{bmatrix} b3=a3−projW2a3=a3−b1Tb1b1Ta3b1−b2Tb2b2Ta3b2= 0011 −42 1111 −122 −3111 = 0−2/31/31/3
实对称矩阵的对角化
定理:
- 实对称矩阵对应于不同特征值的特征向量必正交。
- 实对称矩阵可正交相似对角化。即对于对称矩阵 A A A ,存在正交矩阵 P P P ,使 Λ = P − 1 A P \Lambda=P^{-1}AP Λ=P−1AP 。 Λ \Lambda Λ 的对角元素为 A A A 的特征值。
证明:(1) 设实对称矩阵 A A A 对应不同特征值 λ 1 , λ 2 \lambda_1,\lambda_2 λ1,λ2 的特征向量分别为 u 1 , u 2 \mathbf u_1,\mathbf u_2 u1,u2 。则
A T = A , A u 1 = λ 1 u 1 , A u 2 = λ 2 u 2 A^T=A,\quad A\mathbf u_1=\lambda_1\mathbf u_1,\quad A\mathbf u_2=\lambda_2\mathbf u_2 AT=A,Au1=λ1u1,Au2=λ2u2
对 A u 1 = λ 1 u 1 A\mathbf u_1=\lambda_1\mathbf u_1 Au1=λ1u1两边求转置,再右乘向量 u 2 \mathbf u_2 u2,有
u 1 T A u 2 = λ 1 u 1 T u 2 \mathbf u_1^TA\mathbf u_2=\lambda_1\mathbf u_1^T\mathbf u_2 u1TAu2=λ1u1Tu2
对 A u 2 = λ 2 u 2 A\mathbf u_2=\lambda_2\mathbf u_2 Au2=λ2u2两边左乘向量 u 1 T \mathbf u_1^T u1T,有
u 1 T A u 2 = λ 2 u 1 T u 2 \mathbf u_1^TA\mathbf u_2=\lambda_2\mathbf u_1^T\mathbf u_2 u1TAu2=λ2u1Tu2
两式相减,得到
( λ 1 − λ 2 ) u 1 T u 2 = 0 (\lambda_1-\lambda_2)\mathbf u_1^T\mathbf u_2=0 (λ1−λ2)u1Tu2=0
由于 λ 1 ≠ λ 2 \lambda_1\neq \lambda_2 λ1=λ2 ,所以 u 1 T u 2 = 0 \mathbf u_1^T\mathbf u_2=0 u1Tu2=0 ,即特征向量 u 1 , u 2 \mathbf u_1,\mathbf u_2 u1,u2 正交。
例:将矩阵 A = [ 3 − 2 4 − 2 6 2 4 2 3 ] A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix} A= 3−24−262423 正交对角化
解:特征方程 det ( A − λ I ) = − ( λ − 7 ) 2 ( λ + 2 ) = 0 \det(A-\lambda I)=-(\lambda-7)^2(\lambda+2)=0 det(A−λI)=−(λ−7)2(λ+2)=0 ,特征值和特征向量分别为
λ = 7 : v 1 = [ 1 0 1 ] , v 2 = [ − 1 / 2 1 0 ] ; λ = − 2 : v 1 = [ − 1 − 1 / 2 1 ] \lambda=7:\mathbf v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}, \mathbf v_2=\begin{bmatrix}-1/2\\1\\0\end{bmatrix}; \quad \lambda=-2:\mathbf v_1=\begin{bmatrix}-1\\-1/2\\1\end{bmatrix} λ=7:v1= 101 ,v2= −1/210 ;λ=−2:v1= −1−1/21
尽管 v 1 , v 2 \mathbf v_1,\mathbf v_2 v1,v2 是线性无关的,但它们并不正交。我们可以用施密特正交化方法,计算与 v 1 \mathbf v_1 v1 正交的 v 2 \mathbf v_2 v2 分量
z 2 = v 2 − v 1 T v 2 v 1 T v 1 v 1 = [ − 1 / 4 1 1 / 4 ] \mathbf z_2=\mathbf v_2-\frac{\mathbf v_1^T\mathbf v_2}{\mathbf v_1^T\mathbf v_1}\mathbf v_1=\begin{bmatrix}-1/4\\1\\1/4\end{bmatrix} z2=v2−v1Tv1v1Tv2v1= −1/411/4
由于 z 2 \mathbf z_2 z2 是特征值 λ = 7 \lambda=7 λ=7 的特征向量 v 1 , v 2 \mathbf v_1,\mathbf v_2 v1,v2 的线性组合,从而 z 2 \mathbf z_2 z2 是特征值 λ = 7 \lambda=7 λ=7 的特征向量。
分别将 v 1 , v 2 , v 3 \mathbf v_1,\mathbf v_2,\mathbf v_3 v1,v2,v3 标准化
u 1 = [ 1 / 2 0 1 / 2 ] , u 2 = [ − 1 / 18 4 / 18 1 / 18 ] , u 3 = [ − 2 / 3 − 1 / 3 2 / 3 ] \mathbf u_1=\begin{bmatrix}1/\sqrt{2}\\0\\1/\sqrt{2}\end{bmatrix}, \mathbf u_2=\begin{bmatrix}-1/\sqrt{18}\\4/\sqrt{18}\\1/\sqrt{18}\end{bmatrix}, \mathbf u_3=\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix} u1= 1/2 01/2 ,u2= −1/18 4/18 1/18 ,u3= −2/3−1/32/3
令
P = ( u 1 , u 2 , u 3 ) = [ 1 / 2 − 1 / 18 − 2 / 3 0 4 / 18 − 1 / 3 1 / 2 1 / 18 2 / 3 ] , Λ = [ 7 0 0 0 7 0 0 0 − 2 ] P=(\mathbf u_1,\mathbf u_2,\mathbf u_3)=\begin{bmatrix}1/\sqrt{2}&-1/\sqrt{18}&-2/3\\0&4/\sqrt{18}&-1/3\\1/\sqrt{2}&1/\sqrt{18}&2/3\end{bmatrix},\quad \Lambda=\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix} P=(u1,u2,u3)= 1/2 01/2 −1/18 4/18 1/18 −2/3−1/32/3 ,Λ= 70007000−2
于是正交矩阵 P P P 将 A A A 正交对角化,即 A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP−1
对称矩阵的谱 :矩阵 A A A 的特征值的集合称为 A A A 的谱 (spectrum)
spec A = { λ ∈ C ∣ det ( A − λ I ) = 0 } \text{spec }A=\{\lambda\in\Complex\mid\det(A-\lambda I)=0\} spec A={λ∈C∣det(A−λI)=0}
性质 设 A A A 为 n n n 阶对称阵
- A A A 有 n n n 个实特征值(包含重复的特征值);
- 对于每一个特征值,对应的特征空间的维数等于特征方程的根的重数;
- 不同特征值的特征空间相互正交的;
- A A A 可正交対角化;
谱分解 :假设对称矩阵 A = P Λ P − 1 A=P\Lambda P^{-1} A=PΛP−1 。其中 P P P 为正交矩阵,其列是 A A A 的正交特征向量 u 1 , u 2 , ⋯ , u n \mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n u1,u2,⋯,un ,对应的特征值 λ 1 , λ 2 , ⋯ , λ n \lambda_1,\lambda_2,\cdots,\lambda_n λ1,λ2,⋯,λn是 Λ \Lambda Λ 的对角线元素。由于 P T = P − 1 P^T=P^{-1} PT=P−1 ,故
A = P Λ P − 1 = ( u 1 , u 2 , ⋯ , u n ) [ λ 1 λ 2 ⋱ λ n ] [ u 1 T u 2 T ⋮ u n T ] = ( λ 1 u 1 , λ 2 u 2 , ⋯ , λ n u n ) [ u 1 T u 2 T ⋮ u n T ] = λ 1 u 1 u 1 T + λ 2 u 2 u 2 T + ⋯ + λ n u n u n T \begin{aligned} A&=P\Lambda P^{-1}=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n) \begin{bmatrix}\lambda_1\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{bmatrix} \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=(\lambda_1\mathbf u_1,\lambda_2\mathbf u_2,\cdots,\lambda_n\mathbf u_n) \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=\lambda_1\mathbf u_1\mathbf u_1^T+\lambda_2\mathbf u_2\mathbf u_2^T+\cdots+\lambda_n\mathbf u_n\mathbf u_n^T \end{aligned} A=PΛP−1=(u1,u2,⋯,un) λ1λ2⋱λn u1Tu2T⋮unT =(λ1u1,λ2u2,⋯,λnun) u1Tu2T⋮unT =λ1u1u1T+λ2u2u2T+⋯+λnununT
由于它将 A A A 分解为由 A A A 的特征值确定的小块,因此这个 A A A 的表示就称为 A A A 的谱分解 。 上式中的每一项都是一个秩为1的 n n n 阶方阵。例如, λ 1 u 1 u 1 T \lambda_1\mathbf u_1\mathbf u_1^T λ1u1u1T的每一列都是 u 1 \mathbf u_1 u1 的倍数。