线性代数公式速记手册

第一部分:基础

本手册汇集了线性代数中的核心公式和定理,旨在帮助学生快速记忆与应用。内容涵盖向量、矩阵、行列式、特征值与特征向量、向量空间、线性变换、解线性方程组以及内积空间等关键主题,每一部分都附有详细解释,便于理解和复习。

向量

向量是线性代数的基本概念之一,用于表示具有大小和方向的量。

向量加法

向量加法遵循对应分量相加的规则:
u + v = [ u 1 + v 1 u 2 + v 2 ⋮ u n + v n ] \boldsymbol{u} + \boldsymbol{v} = \begin{bmatrix}u_1 + v_1 \\ u_2 + v_2 \\ \vdots \\ u_n + v_n \end{bmatrix} u+v= u1+v1u2+v2⋮un+vn

其中, u \boldsymbol{u} u 和 v \boldsymbol{v} v 是同维度的向量。

向量数乘

向量的数乘是指将向量的每个分量乘以一个标量:
c u = [ c u 1 c u 2 ⋮ c u n ] c\boldsymbol{u} = \begin{bmatrix}cu_1 \\ cu_2 \\ \vdots \\ cu_n \end{bmatrix} cu= cu1cu2⋮cun

这里, c c c 是标量, u \boldsymbol{u} u 是向量。

向量内积

向量内积(点积)用于衡量两个向量的相似性:
u ⋅ v = u 1 v 1 + u 2 v 2 + ⋯ + u n v n \boldsymbol{u} \cdot \boldsymbol{v} = u_1v_1 + u_2v_2 + \cdots + u_nv_n u⋅v=u1v1+u2v2+⋯+unvn

内积结果是一个标量。

向量范数

向量范数表示向量的长度或大小,通常使用欧几里得范数:
∥ u ∥ = u ⋅ u = u 1 2 + u 2 2 + ⋯ + u n 2 \|\boldsymbol{u}\| = \sqrt{\boldsymbol{u} \cdot \boldsymbol{u}} = \sqrt{u_1^2 + u_2^2 + \cdots + u_n^2} ∥u∥=u⋅u =u12+u22+⋯+un2

矩阵

矩阵是线性代数中的第二类基本对象,用于表示和操作线性变换。

矩阵加法

矩阵加法是逐元素相加:
A + B = [ a 11 + b 11 ⋯ a 1 n + b 1 n ⋮ ⋱ ⋮ a m 1 + b m 1 ⋯ a m n + b m n ] A + B = \begin{bmatrix}a_{11} + b_{11} & \cdots & a_{1n} + b_{1n} \\ \vdots & \ddots & \vdots \\ a_{m1} + b_{m1} & \cdots & a_{mn} + b_{mn} \end{bmatrix} A+B= a11+b11⋮am1+bm1⋯⋱⋯a1n+b1n⋮amn+bmn

矩阵乘法

矩阵乘法通过行与列的内积计算:
( A B ) i j = ∑ k = 1 n a i k b k j (AB){ij} = \sum{k=1}^n a_{ik}b_{kj} (AB)ij=k=1∑naikbkj

其中, A A A 的列数必须等于 B B B 的行数。

转置矩阵

转置操作将矩阵的行和列互换:
( A T ) i j = a j i (A^T){ij} = a{ji} (AT)ij=aji

逆矩阵

对于可逆矩阵 A A A,其逆矩阵 A − 1 A^{-1} A−1 满足:
A A − 1 = A − 1 A = I AA^{-1} = A^{-1}A = I AA−1=A−1A=I

其中, I I I 是单位矩阵。如果矩阵不可逆,则不存在逆矩阵。

行列式

行列式是与方阵相关的标量量,具有多种重要性质。

2阶行列式

对于 2 × 2 2 \times 2 2×2 矩阵:
det ⁡ [ a b c d ] = a d − b c \det\begin{bmatrix}a & b \\ c & d\end{bmatrix} = ad - bc det[acbd]=ad−bc

3阶行列式

对于 3 × 3 3 \times 3 3×3 矩阵:
det ⁡ [ a b c d e f g h i ] = a ( e i − f h ) − b ( d i − f g ) + c ( d h − e g ) \det\begin{bmatrix} a & b & c \\ d & e & f \\ g & h & i \\ \end{bmatrix} = a(ei - fh) - b(di - fg) + c(dh - eg) det adgbehcfi =a(ei−fh)−b(di−fg)+c(dh−eg)

行列式性质

  • 乘积性质: det ⁡ ( A B ) = det ⁡ ( A ) det ⁡ ( B ) \det(AB) = \det(A)\det(B) det(AB)=det(A)det(B)
  • 转置性质: det ⁡ ( A T ) = det ⁡ ( A ) \det(A^T) = \det(A) det(AT)=det(A)
  • 零行(列)性质:若 A A A 有一行(列)全为零,则 det ⁡ ( A ) = 0 \det(A) = 0 det(A)=0

特征值与特征向量

特征值与特征向量在理解矩阵的性质和线性变换中起关键作用。

特征值定义

对于矩阵 A A A,若存在标量 λ \lambda λ 和非零向量 v \boldsymbol{v} v 满足:
A v = λ v A\boldsymbol{v} = \lambda \boldsymbol{v} Av=λv

则 λ \lambda λ 为 A A A 的特征值, v \boldsymbol{v} v 为对应的特征向量。

特征值求解

特征值 λ \lambda λ 通过解特征方程得到:
det ⁡ ( A − λ I ) = 0 \det(A - \lambda I) = 0 det(A−λI)=0

谱定理(对称矩阵)

若 A A A 为对称矩阵,则存在正交矩阵 Q Q Q 和对角矩阵 Λ \Lambda Λ 使得:
A = Q Λ Q T A = Q\Lambda Q^T A=QΛQT

这意味着对称矩阵可以对角化,且其特征向量构成正交基。

向量空间

向量空间是线性代数的基础结构,包含向量的集合及其线性运算。

子空间条件

若集合 W W W 满足以下条件:

  1. 零向量属于 W W W
  2. 向量加法封闭
  3. 数乘封闭
    则 W W W 是向量空间的子空间。

基与维数

  • :向量空间中线性无关且能生成整个空间的一组向量。
  • 维数:基的向量个数,表示向量空间的"大小"。

线性变换

线性变换是向量空间之间保持线性结构的映射。

线性变换定义

映射 T : R n → R m T: \mathbb{R}^n \rightarrow \mathbb{R}^m T:Rn→Rm 满足:
T ( u + v ) = T ( u ) + T ( v ) , T ( c u ) = c T ( u ) T(\boldsymbol{u} + \boldsymbol{v}) = T(\boldsymbol{u}) + T(\boldsymbol{v}), \quad T(c\boldsymbol{u}) = cT(\boldsymbol{u}) T(u+v)=T(u)+T(v),T(cu)=cT(u)

矩阵表示

任何线性变换都可以表示为矩阵乘法:
T ( x ) = A x T(\boldsymbol{x}) = A\boldsymbol{x} T(x)=Ax

其中, A A A 是对应的变换矩阵。

解线性方程组

解线性方程组是线性代数中的基本问题,常用多种方法求解。

矩阵形式

线性方程组可以表示为矩阵形式:
A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b

克拉默法则

对于可逆矩阵 A A A,系统的解为:
x i = det ⁡ ( A i ) det ⁡ ( A ) x_i = \frac{\det(A_i)}{\det(A)} xi=det(A)det(Ai)

其中, A i A_i Ai 是将 A A A 的第 i i i 列替换为向量 b \boldsymbol{b} b 所得到的矩阵。

高斯消元法

通过一系列行变换将矩阵化为上三角或阶梯形,从而简化求解过程。

内积空间

内积空间是在向量空间中引入内积运算,赋予向量更多几何意义。

定义

向量空间 V V V 配备内积运算 ⟨ ⋅ , ⋅ ⟩ \langle \cdot , \cdot \rangle ⟨⋅,⋅⟩,满足:

  1. 线性性
  2. 对称性
  3. 正定性

正交性

若 ⟨ u , v ⟩ = 0 \langle \boldsymbol{u}, \boldsymbol{v} \rangle = 0 ⟨u,v⟩=0,则称向量 u \boldsymbol{u} u 与 v \boldsymbol{v} v 正交。

正交基

基中的所有向量两两正交,且每个向量的范数为 1,这种基称为正交基或标准正交基。

张量

张量是线性代数和多线性代数中的高阶概念,广泛应用于物理学和工程学。

张量定义

张量是多维数组的推广,能够描述多维空间中的线性关系。一个阶为 n n n 的张量可以表示为一个具有 n n n 个索引的多维数组。

张量运算

  • 张量加法:对应元素相加。
  • 张量乘法:可通过爱因斯坦求和约定进行收缩乘法。

广义逆矩阵

广义逆矩阵用于处理不可逆矩阵的情况,尤其在最小二乘问题中应用广泛。

摩尔-彭若斯广义逆

对于任意矩阵 A A A,其摩尔-彭若斯广义逆 A + A^+ A+ 满足:
A A + A = A , A + A A + = A + , ( A A + ) T = A A + , ( A + A ) T = A + A AA^+A = A, \quad A^+AA^+ = A^+, \quad (AA^+)^T = AA^+, \quad (A^+A)^T = A^+A AA+A=A,A+AA+=A+,(AA+)T=AA+,(A+A)T=A+A

奇异值分解 (SVD)

奇异值分解是一种矩阵分解方法,将任意矩阵表示为三个矩阵的乘积,可用于降维和数据压缩。

SVD定义

对于任意 m × n m \times n m×n 矩阵 A A A,存在正交矩阵 U U U 和 V V V 及对角矩阵 Σ \Sigma Σ,使得:
A = U Σ V T A = U\Sigma V^T A=UΣVT

其中, Σ \Sigma Σ 的对角线元素为奇异值。

QR分解

QR分解将矩阵分解为一个正交矩阵和一个上三角矩阵的乘积,常用于求解线性方程组和特征值问题。

QR分解定义

对于任意 m × n m \times n m×n 矩阵 A A A,存在正交矩阵 Q Q Q 和上三角矩阵 R R R,使得:
A = Q R A = QR A=QR

线性相关与线性无关

线性相关

如果存在不全为零的标量 c 1 , c 2 , ... , c k c_1, c_2, \dotsc, c_k c1,c2,...,ck,使得:
c 1 v 1 + c 2 v 2 + ⋯ + c k v k = 0 c_1\boldsymbol{v}_1 + c_2\boldsymbol{v}_2 + \cdots + c_k\boldsymbol{v}_k = \boldsymbol{0} c1v1+c2v2+⋯+ckvk=0

则向量组 { v 1 , v 2 , ... , v k } \{\boldsymbol{v}_1, \boldsymbol{v}_2, \dotsc, \boldsymbol{v}_k\} {v1,v2,...,vk} 线性相关。

线性无关

如果只有当所有标量 c 1 , c 2 , ... , c k c_1, c_2, \dotsc, c_k c1,c2,...,ck 都为零时,上述等式成立,则向量组线性无关。

行空间、列空间与零空间

行空间

一个矩阵的行空间是其所有行向量的线性组合所构成的空间。

列空间

一个矩阵的列空间是其所有列向量的线性组合所构成的空间。

零空间

一个矩阵的零空间 是所有满足 A x = 0 A\boldsymbol{x} = \boldsymbol{0} Ax=0 的向量 x \boldsymbol{x} x 所组成的集合。

维数定理

维数定理描述了矩阵的列空间维数(秩)与零空间维数之间的关系:
秩 ( A ) + 零空间维数 ( A ) = 列数 ( A ) \text{秩}(A) + \text{零空间维数}(A) = \text{列数}(A) 秩(A)+零空间维数(A)=列数(A)

对角化

对角化是将一个可对角化矩阵表示为对角矩阵的过程,这对于简化矩阵运算非常有用。

对角化定义

如果一个 n × n n \times n n×n 的矩阵 A A A 存在一个可逆矩阵 P P P 和一个对角矩阵 D D D,使得:
A = P D P − 1 A = PDP^{-1} A=PDP−1

则称矩阵 A A A 是可对角化的 , D D D 是 A A A 的对角矩阵 , P P P 的列向量是 A A A 的特征向量

对角化条件

矩阵 A A A 可对角化的充分必要条件是 A A A 有 n n n 个线性无关的特征向量,即 A A A 有 n n n 个不同的特征值,或者特征值的几何重数等于代数重数。

对角化步骤

  1. 求解矩阵 A A A 的特征值 λ 1 , λ 2 , ... , λ n \lambda_1, \lambda_2, \dotsc, \lambda_n λ1,λ2,...,λn。
  2. 对每个特征值 λ i \lambda_i λi,求解对应的特征向量 v i \boldsymbol{v}_i vi。
  3. 构造矩阵 P P P,其列为特征向量 v i \boldsymbol{v}_i vi。
  4. 构造对角矩阵 D D D,其对角线上的元素为特征值 λ i \lambda_i λi。
  5. 验证 A = P D P − 1 A = PDP^{-1} A=PDP−1。

乔丹标准形

乔丹标准形是将任意方阵化为接近对角矩阵的形式,使得其结构更加清晰,特别是在矩阵不可对角化的情况下。

乔丹标准形定义

对于一个 n × n n \times n n×n 的矩阵 A A A,存在一个可逆矩阵 P P P 和一个乔丹矩阵 J J J,使得:
A = P J P − 1 A = PJP^{-1} A=PJP−1

其中, J J J 是由乔丹块组成的块对角矩阵,每个乔丹块对应一个特征值,并且在每个块中该特征值在对角线上重复出现。

乔丹块

一个乔丹块 J k ( λ ) J_k(\lambda) Jk(λ) 对应于特征值 λ \lambda λ,其形式为一个 k × k k \times k k×k 的矩阵:
J k ( λ ) = [ λ 1 0 ⋯ 0 0 λ 1 ⋯ 0 ⋮ ⋮ ⋱ ⋱ ⋮ 0 0 ⋯ λ 1 0 0 ⋯ 0 λ ] J_k(\lambda) = \begin{bmatrix} \lambda & 1 & 0 & \cdots & 0 \\ 0 & \lambda & 1 & \cdots & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda & 1 \\ 0 & 0 & \cdots & 0 & \lambda \\ \end{bmatrix} Jk(λ)= λ0⋮001λ⋮0001⋱⋯⋯⋯⋯⋱λ000⋮1λ

乔丹标准形的存在性

每个方阵都存在一个乔丹标准形,这使得乔丹标准形成为研究线性变换的重要工具,尤其是在理解矩阵的结构和性质方面。

求解步骤

  1. 求解矩阵 A A A 的特征值及其代数重数。
  2. 确定每个特征值的几何重数,进而确定乔丹块的大小。
  3. 构造矩阵 P P P,其列为广义特征向量。
  4. 构造乔丹矩阵 J J J,使得 A = P J P − 1 A = PJP^{-1} A=PJP−1。

规范形与等价变换

初等行变换

初等行变换包括交换两行、将一行乘以非零标量以及将一行加到另一行的倍数。这些变换用于将矩阵化为行简化阶梯形,从而便于求解线性方程组和研究矩阵的秩。

规范形

通过一系列初等行变换,可以将任意矩阵化为其规范形,即最简形式,如行最简阶梯形。这有助于理解矩阵的基本性质和解决相关问题。

正交投影

正交投影的定义

在内积空间中,向量 u \boldsymbol{u} u 在子空间 W W W 上的正交投影 是子空间中距离 u \boldsymbol{u} u 最近的向量,记为 proj W u \text{proj}_W \boldsymbol{u} projWu。

投影公式

若 W W W 是由正交基 { w 1 , w 2 , ... , w k } \{\boldsymbol{w}_1, \boldsymbol{w}_2, \dotsc, \boldsymbol{w}_k\} {w1,w2,...,wk} 生成的子空间,则
proj W u = ∑ i = 1 k u ⋅ w i w i ⋅ w i w i \text{proj}W \boldsymbol{u} = \sum{i=1}^k \frac{\boldsymbol{u} \cdot \boldsymbol{w}_i}{\boldsymbol{w}_i \cdot \boldsymbol{w}_i} \boldsymbol{w}_i projWu=i=1∑kwi⋅wiu⋅wiwi

投影矩阵

正交投影可以用矩阵表示。对于子空间 W W W,投影矩阵 P P P 满足:
P = W ( W T W ) − 1 W T P = W(W^T W)^{-1} W^T P=W(WTW)−1WT

其中, W W W 是由 W W W 的基向量组成的矩阵。

基变换

基变换的定义

在向量空间中,基变换是将向量表示从一个基转换为另一个基的过程。

变换矩阵

若 B = { b 1 , ... , b n } B = \{\boldsymbol{b}_1, \dotsc, \boldsymbol{b}_n\} B={b1,...,bn} 和 C = { c 1 , ... , c n } C = \{\boldsymbol{c}_1, \dotsc, \boldsymbol{c}n\} C={c1,...,cn} 是两个基,则从 B B B 到 C C C 的基变换矩阵 P C ← B P{C \leftarrow B} PC←B 满足:
c i = P C ← B b i , ∀ i = 1 , 2 , ... , n \boldsymbol{c}i = P{C \leftarrow B} \boldsymbol{b}_i, \quad \forall i = 1, 2, \dotsc, n ci=PC←Bbi,∀i=1,2,...,n

坐标变换

向量 v \boldsymbol{v} v 在基 B B B 和基 C C C 下的坐标关系为:
v C = P C ← B v B \boldsymbol{v}C = P{C \leftarrow B} \boldsymbol{v}_B vC=PC←BvB

双线性形式与二次形式

双线性形式

一个双线性形式 是一个函数 B : V × V → R B: V \times V \rightarrow \mathbb{R} B:V×V→R,满足对于所有的 u , v , w ∈ V \boldsymbol{u}, \boldsymbol{v}, \boldsymbol{w} \in V u,v,w∈V 和标量 c c c,有:
B ( u + v , w ) = B ( u , w ) + B ( v , w ) B(\boldsymbol{u} + \boldsymbol{v}, \boldsymbol{w}) = B(\boldsymbol{u}, \boldsymbol{w}) + B(\boldsymbol{v}, \boldsymbol{w}) B(u+v,w)=B(u,w)+B(v,w)
B ( c u , v ) = c B ( u , v ) B(c\boldsymbol{u}, \boldsymbol{v}) = cB(\boldsymbol{u}, \boldsymbol{v}) B(cu,v)=cB(u,v)

二次形式

一个二次形式 是一个函数 Q : V → R Q: V \rightarrow \mathbb{R} Q:V→R,满足:
Q ( v ) = B ( v , v ) Q(\boldsymbol{v}) = B(\boldsymbol{v}, \boldsymbol{v}) Q(v)=B(v,v)

其中, B B B 是一个对称双线性形式。

矩阵表示

双线性形式和二次形式可以通过矩阵表示。对于双线性形式 B ( u , v ) = u T A v B(\boldsymbol{u}, \boldsymbol{v}) = \boldsymbol{u}^T A \boldsymbol{v} B(u,v)=uTAv,其中 A A A 是对称矩阵。

矩阵范数

矩阵范数的定义

矩阵范数是一个将矩阵映射到非负实数的函数,满足以下性质:

  1. ∥ A ∥ ≥ 0 \|A\| \geq 0 ∥A∥≥0,且 ∥ A ∥ = 0 \|A\| = 0 ∥A∥=0 当且仅当 A A A 是零矩阵。
  2. ∥ c A ∥ = ∣ c ∣ ∥ A ∥ \|cA\| = |c| \|A\| ∥cA∥=∣c∣∥A∥,其中 c c c 是标量。
  3. ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \|A + B\| \leq \|A\| + \|B\| ∥A+B∥≤∥A∥+∥B∥。

常见矩阵范数

  • Frobenius 范数
    ∥ A ∥ F = ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ 2 \|A\|F = \sqrt{\sum{i=1}^m \sum_{j=1}^n |a_{ij}|^2} ∥A∥F=i=1∑mj=1∑n∣aij∣2

  • 谱范数(2-范数)
    ∥ A ∥ 2 = σ max ⁡ ( A ) \|A\|2 = \sigma{\max}(A) ∥A∥2=σmax(A)

    其中, σ max ⁡ ( A ) \sigma_{\max}(A) σmax(A) 是矩阵 A A A 的最大奇异值。

  • 1-范数
    ∥ A ∥ 1 = max ⁡ 1 ≤ j ≤ n ∑ i = 1 m ∣ a i j ∣ \|A\|1 = \max{1 \leq j \leq n} \sum_{i=1}^m |a_{ij}| ∥A∥1=1≤j≤nmaxi=1∑m∣aij∣

  • 无穷范数
    ∥ A ∥ ∞ = max ⁡ 1 ≤ i ≤ m ∑ j = 1 n ∣ a i j ∣ \|A\|\infty = \max{1 \leq i \leq m} \sum_{j=1}^n |a_{ij}| ∥A∥∞=1≤i≤mmaxj=1∑n∣aij∣

正交矩阵与正交变换

正交矩阵

正交矩阵 是指其转置等于其逆的方阵,即:
Q T Q = Q Q T = I Q^T Q = QQ^T = I QTQ=QQT=I

其中, Q T Q^T QT 是矩阵 Q Q Q 的转置, I I I 是单位矩阵。

正交变换

正交变换 是由正交矩阵表示的线性变换,保持向量的长度和夹角不变。即对于所有向量 u , v ∈ R n \boldsymbol{u}, \boldsymbol{v} \in \mathbb{R}^n u,v∈Rn:
∥ Q u ∥ = ∥ u ∥ \|Q\boldsymbol{u}\| = \|\boldsymbol{u}\| ∥Qu∥=∥u∥
( Q u ) ⋅ ( Q v ) = u ⋅ v (Q\boldsymbol{u}) \cdot (Q\boldsymbol{v}) = \boldsymbol{u} \cdot \boldsymbol{v} (Qu)⋅(Qv)=u⋅v

正交矩阵的性质

  • 保持长度 : ∥ Q u ∥ = ∥ u ∥ \|Q\boldsymbol{u}\| = \|\boldsymbol{u}\| ∥Qu∥=∥u∥
  • 保持内积 : ( Q u ) ⋅ ( Q v ) = u ⋅ v (Q\boldsymbol{u}) \cdot (Q\boldsymbol{v}) = \boldsymbol{u} \cdot \boldsymbol{v} (Qu)⋅(Qv)=u⋅v
  • 行向量和列向量正交:矩阵的行向量和列向量都是单位正交的

第二部分:进阶

对称矩阵与谱定理

对称矩阵

对称矩阵 是指矩阵等于其转置,即:
A = A T A = A^T A=AT

对称矩阵的所有特征值都是实数。

谱定理

谱定理 指出,每个对称矩阵都可以被正交对角化。即,对于一个对称矩阵 A A A,存在一个正交矩阵 Q Q Q 和一个对角矩阵 Λ \Lambda Λ,使得:
A = Q Λ Q T A = Q\Lambda Q^T A=QΛQT

其中, Λ \Lambda Λ 的对角线元素是 A A A 的特征值, Q Q Q 的列向量是 A A A 的特征向量。

应用

  • 主成分分析(PCA):利用谱定理对协方差矩阵进行对角化以实现数据降维
  • 二次型的分类:通过谱定理将二次型表示为对角形式,便于分析其性质

正定矩阵与半正定矩阵

正定矩阵

一个对称矩阵 A A A 被称为正定矩阵 ,如果对于所有非零向量 x \boldsymbol{x} x,有:
x T A x > 0 \boldsymbol{x}^T A \boldsymbol{x} > 0 xTAx>0

半正定矩阵

一个对称矩阵 A A A 被称为半正定矩阵 ,如果对于所有向量 x \boldsymbol{x} x,有:
x T A x ≥ 0 \boldsymbol{x}^T A \boldsymbol{x} \geq 0 xTAx≥0

性质与判别

  • 特征值判别:正定矩阵的所有特征值均为正,半正定矩阵的所有特征值非负
  • 主子式判别:正定矩阵的所有主子式均为正

最小二乘问题

问题描述

在过定的线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 中,求解使得 ∥ A x − b ∥ \|A\boldsymbol{x} - \boldsymbol{b}\| ∥Ax−b∥ 最小的向量 x \boldsymbol{x} x,即:
min ⁡ x ∥ A x − b ∥ 2 \min_{\boldsymbol{x}} \|A\boldsymbol{x} - \boldsymbol{b}\|_2 xmin∥Ax−b∥2

正规方程

最小二乘解可以通过正规方程得到:
A T A x = A T b A^T A \boldsymbol{x} = A^T \boldsymbol{b} ATAx=ATb

解的存在性与唯一性

当 A T A A^T A ATA 可逆时,最小二乘解唯一,且为:
x = ( A T A ) − 1 A T b \boldsymbol{x} = (A^T A)^{-1} A^T \boldsymbol{b} x=(ATA)−1ATb

解析几何解释

最小二乘解是向量 b \boldsymbol{b} b 在列空间 C ( A ) \mathcal{C}(A) C(A) 上的正交投影所对应的向量。

稀疏矩阵

稀疏矩阵定义

稀疏矩阵 是指矩阵中大部分元素为零的矩阵。与之相对的是稠密矩阵,其大部分元素非零。

存储与计算

稀疏矩阵常采用特殊的数据结构进行存储,如压缩稀疏行(CSR)或压缩稀疏列(CSC),以节省存储空间并提高计算效率。

应用

  • 科学计算:大型线性系统的求解
  • 图论:图的邻接矩阵表示
  • 机器学习:特征矩阵通常为稀疏

程序设计中的线性代数应用

图像处理

  • 图像压缩:利用奇异值分解(SVD)进行降维
  • 图像旋转与变换:使用正交矩阵实现图像的旋转和反射

机器学习

  • 主成分分析(PCA):通过特征值分解或奇异值分解实现数据降维
  • 线性回归:最小二乘法用于模型参数的估计

网络分析

  • PageRank 算法:基于矩阵的特征值计算网页重要性

计算机图形学

  • 变换矩阵:用于实现图形的平移、旋转、缩放等操作

双线性变换与张量

双线性变换

双线性变换是线性代数中的一种高级概念,涉及两个向量空间之间的双线性映射。具体定义和性质可参考双线性形式章节。

张量运算的扩展

  • 张量积:将两个张量合成为一个更高阶的张量
  • 收缩:对张量的某些指标进行求和,降低其阶数

算法复杂度与数值稳定性

算法复杂度

线性代数算法的时间与空间复杂度,例如:

  • 高斯消元法 :时间复杂度为 O ( n 3 ) O(n^3) O(n3)
  • 奇异值分解(SVD) :时间复杂度较高,通常为 O ( n 3 ) O(n^3) O(n3)

数值稳定性

在实际计算中,算法的数值稳定性至关重要,避免因舍入误差导致结果不准确。常用技术包括:

  • 部分选主元:在高斯消元中选择主元以提高稳定性
  • 正交变换:如QR分解,减少舍入误差

LU分解

LU分解定义

LU分解 是将一个矩阵分解为下三角矩阵 L L L 和上三角矩阵 U U U 的乘积,即:
A = L U A = LU A=LU

其中, L L L 是单位下三角矩阵(对角线元素全部为1), U U U 是上三角矩阵。

分解条件

并非所有矩阵都可以进行LU分解。一个矩阵可以进行LU分解的充分必要条件是其所有主子式均不为零,或者在进行分解过程中不需要行交换。

分解方法

  1. 直接分解法

    通过逐步消元将矩阵 A A A 转化为上三角矩阵 U U U,并记录下每一步的系数形成下三角矩阵 L L L。

  2. 带部分主元的LU分解

    在分解过程中进行行交换以提高稳定性,即:
    P A = L U PA = LU PA=LU

    其中, P P P 是置换矩阵。

应用

  • 求解线性方程组 :通过分解后,先解 L y = b Ly = b Ly=b,再解 U x = y Ux = y Ux=y。
  • 计算行列式 : det ⁡ ( A ) = det ⁡ ( L ) ⋅ det ⁡ ( U ) \det(A) = \det(L) \cdot \det(U) det(A)=det(L)⋅det(U),由于 L L L 是单位下三角矩阵, det ⁡ ( A ) = det ⁡ ( U ) \det(A) = \det(U) det(A)=det(U)。
  • 逆矩阵:利用分解结果可以高效计算矩阵的逆。

Cholesky分解

Cholesky分解定义

Cholesky分解 是将一个对称正定矩阵分解为一个下三角矩阵与其转置的乘积,即:
A = L L T A = LL^T A=LLT

其中, L L L 是下三角矩阵。

分解条件

只有对称正定矩阵才能进行Cholesky分解。

分解方法

通过逐步计算元素,确保分解过程中每一步的对角元素为正,从而保持下三角矩阵 L L L 的非奇异性。

应用

  • 数值稳定的线性方程组求解:比LU分解在处理对称正定矩阵时更高效。
  • 优化问题:在凸优化中广泛应用于二次型的优化问题。
  • 蒙特卡洛模拟:用于生成具有特定协方差结构的多变量正态分布数据。

数值线性代数中的迭代方法

雅可比迭代法

雅可比迭代法 是一种求解线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 的迭代方法。将矩阵 A A A 分解为对角矩阵 D D D 和其余部分 R R R,即 A = D + R A = D + R A=D+R,迭代公式为:
x ( k + 1 ) = D − 1 ( b − R x ( k ) ) \boldsymbol{x}^{(k+1)} = D^{-1}(\boldsymbol{b} - R\boldsymbol{x}^{(k)}) x(k+1)=D−1(b−Rx(k))

高斯-赛德尔迭代法

高斯-赛德尔迭代法 改进了雅可比方法,使用最新的迭代值进行计算。分解同样为 A = D + R A = D + R A=D+R,迭代公式为:
x ( k + 1 ) = ( D + L ) − 1 ( b − U x ( k ) ) \boldsymbol{x}^{(k+1)} = (D + L)^{-1}(\boldsymbol{b} - U\boldsymbol{x}^{(k)}) x(k+1)=(D+L)−1(b−Ux(k))

其中, L L L 是 A A A 的下三角部分, U U U 是上三角部分。

共轭梯度法

共轭梯度法是一种针对对称正定矩阵的高效迭代方法,适用于大规模稀疏线性系统。它通过构建共轭方向逐步逼近解。

应用

  • 大规模线性系统求解:尤其在工程和科学计算中处理稀疏矩阵时。
  • 优化算法:如最小二乘问题和凸优化问题中的子步骤。
  • 图像处理和机器学习:用于高效计算和数据分析。

矩阵的迹

矩阵迹的定义

一个 n × n n \times n n×n 矩阵 A A A 的 ,记作 tr ( A ) \text{tr}(A) tr(A),是矩阵对角线上元素的和:

tr ( A ) = ∑ i = 1 n a i i \text{tr}(A) = \sum_{i=1}^n a_{ii} tr(A)=i=1∑naii

矩阵迹的性质

  • 线性性
    tr ( A + B ) = tr ( A ) + tr ( B ) \text{tr}(A + B) = \text{tr}(A) + \text{tr}(B) tr(A+B)=tr(A)+tr(B)
    tr ( c A ) = c   tr ( A ) \text{tr}(cA) = c \, \text{tr}(A) tr(cA)=ctr(A)

  • 循环不变性
    tr ( A B ) = tr ( B A ) \text{tr}(AB) = \text{tr}(BA) tr(AB)=tr(BA)

  • 与转置的关系
    tr ( A ) = tr ( A T ) \text{tr}(A) = \text{tr}(A^T) tr(A)=tr(AT)

应用

  • 特征值关系

    矩阵的迹等于其特征值的和。

    tr ( A ) = λ 1 + λ 2 + ⋯ + λ n \text{tr}(A) = \lambda_1 + \lambda_2 + \cdots + \lambda_n tr(A)=λ1+λ2+⋯+λn

  • 计算方便

    矩阵的迹可以用于快速计算某些矩阵运算的结果,如矩阵对角线元素之和。

矩阵指数

矩阵指数的定义

对于一个方阵 A A A,其矩阵指数定义为幂级数:

e A = ∑ k = 0 ∞ A k k ! e^{A} = \sum_{k=0}^{\infty} \frac{A^k}{k!} eA=k=0∑∞k!Ak

性质

  • 幂级数收敛 :对于任何方阵 A A A,幂级数一定收敛。

  • 矩阵的性质保持

    如果 A A A 和 B B B 可交换( A B = B A AB = BA AB=BA),则 e A + B = e A e B e^{A+B} = e^{A} e^{B} eA+B=eAeB。

  • 矩阵指数与特征值

    如果 λ \lambda λ 是 A A A 的特征值,则 e λ e^{\lambda} eλ 是 e A e^{A} eA 的特征值。

应用

  • 解决线性微分方程

    线性系统 d x d t = A x \frac{d\boldsymbol{x}}{dt} = A\boldsymbol{x} dtdx=Ax 的解为 x ( t ) = e A t x ( 0 ) \boldsymbol{x}(t) = e^{At} \boldsymbol{x}(0) x(t)=eAtx(0)。

  • 量子力学

    在量子力学中,矩阵指数用于描述时间演化算符。

  • 控制理论

    用于描述系统的状态转移。

Gram-Schmidt正交化

Gram-Schmidt过程的定义

Gram-Schmidt过程是一种将一组线性无关的向量转化为一组正交向量的方法。对于向量组 { v 1 , v 2 , ... , v n } \{\boldsymbol{v}_1, \boldsymbol{v}_2, \dotsc, \boldsymbol{v}_n\} {v1,v2,...,vn},Gram-Schmidt过程生成一组正交向量 { u 1 , u 2 , ... , u n } \{\boldsymbol{u}_1, \boldsymbol{u}_2, \dotsc, \boldsymbol{u}_n\} {u1,u2,...,un},满足:

u 1 = v 1 \boldsymbol{u}_1 = \boldsymbol{v}_1 u1=v1

u k = v k − ∑ i = 1 k − 1 u i ⋅ v k u i ⋅ u i u i 对于 k = 2 , 3 , ... , n \boldsymbol{u}_k = \boldsymbol{v}k - \sum{i=1}^{k-1} \frac{\boldsymbol{u}_i \cdot \boldsymbol{v}_k}{\boldsymbol{u}_i \cdot \boldsymbol{u}_i} \boldsymbol{u}_i \quad \text{对于 } k = 2, 3, \dotsc, n uk=vk−i=1∑k−1ui⋅uiui⋅vkui对于 k=2,3,...,n

Gram-Schmidt过程的性质

  • 正交性 :生成的向量组 { u 1 , u 2 , ... , u n } \{\boldsymbol{u}_1, \boldsymbol{u}_2, \dotsc, \boldsymbol{u}_n\} {u1,u2,...,un} 是正交的。
  • 生成相同的子空间:新向量组与原向量组生成相同的子空间。

应用

  • 正交基的构造:用于构建向量空间的正交基。
  • QR分解:Gram-Schmidt过程是QR分解的一种实现方法。

克罗内克积 (Kronecker Product)

克罗内克积的定义

对于两个矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n 和 B ∈ R p × q B \in \mathbb{R}^{p \times q} B∈Rp×q,它们的克罗内克积 记作 A ⊗ B A \otimes B A⊗B,是一个 m p × n q mp \times nq mp×nq 的块矩阵:

A ⊗ B = [ a 11 B ⋯ a 1 n B ⋮ ⋱ ⋮ a m 1 B ⋯ a m n B ] A \otimes B = \begin{bmatrix} a_{11}B & \cdots & a_{1n}B \\ \vdots & \ddots & \vdots \\ a_{m1}B & \cdots & a_{mn}B \\ \end{bmatrix} A⊗B= a11B⋮am1B⋯⋱⋯a1nB⋮amnB

克罗内克积的性质

  • 结合性
    ( A ⊗ B ) ⊗ C = A ⊗ ( B ⊗ C ) (A \otimes B) \otimes C = A \otimes (B \otimes C) (A⊗B)⊗C=A⊗(B⊗C)
  • 分配性
    A ⊗ ( B + C ) = A ⊗ B + A ⊗ C A \otimes (B + C) = A \otimes B + A \otimes C A⊗(B+C)=A⊗B+A⊗C
  • 与矩阵乘法的关系
    ( A ⊗ B ) ( C ⊗ D ) = ( A C ) ⊗ ( B D ) (A \otimes B)(C \otimes D) = (AC) \otimes (BD) (A⊗B)(C⊗D)=(AC)⊗(BD)
    前提是 A A A 和 C C C 可乘, B B B 和 D D D 可乘。

应用

  • 张量表示:用于描述多线性关系和高阶张量的操作。
  • 量子计算:用于表示多量子比特系统的状态和操作。

特征多项式与最小多项式

特征多项式

特征多项式 是一个方阵的特征值的重要工具。对于一个 n × n n \times n n×n 的矩阵 A A A,它的特征多项式定义为:

p A ( λ ) = det ⁡ ( A − λ I ) p_A(\lambda) = \det(A - \lambda I) pA(λ)=det(A−λI)

其中, λ \lambda λ 是变量, I I I 是 n × n n \times n n×n 的单位矩阵。

性质
  • 特征值关系 :矩阵 A A A 的特征值是特征多项式的根。
  • 相似矩阵:如果两个矩阵相似,则它们的特征多项式相同。
  • 多重性
    • 代数重数:一个特征值在特征多项式中出现的次数。
    • 几何重数:对应特征值的特征向量的线性无关组的数量。
应用
  • 计算特征值:通过求解特征多项式的根来找到矩阵的特征值。
  • 矩阵分类:利用特征多项式判断矩阵是否可对角化。

最小多项式

最小多项式 是满足 m A ( A ) = 0 m_A(A) = 0 mA(A)=0 的最低次数的非零多项式,其中 m A ( λ ) m_A(\lambda) mA(λ) 为矩阵 A A A 的最小多项式。

性质
  • 包含所有特征值 :最小多项式的根包括矩阵 A A A 的所有特征值。
  • 因子:最小多项式是特征多项式的一个因子。
  • 相似矩阵:相似矩阵的最小多项式相同。
应用
  • 矩阵函数:利用最小多项式可以定义矩阵的多项式函数。
  • 判断可对角化:如果最小多项式的每个不重复根的重数为1,则矩阵可对角化。

双对偶空间

双对偶空间的定义

对于一个向量空间 V V V,其双对偶空间 V ∗ ∗ V^{**} V∗∗ 定义为 V ∗ V^* V∗ 的对偶空间,即 V ∗ ∗ = ( V ∗ ) ∗ V^{**} = (V^*)^* V∗∗=(V∗)∗。通过自然映射, V V V 同构于 V ∗ ∗ V^{**} V∗∗。

自然映射

自然映射 Φ : V → V ∗ ∗ \Phi: V \rightarrow V^{**} Φ:V→V∗∗ 通过将每个向量 v ∈ V \boldsymbol{v} \in V v∈V 映射为线性函数 Φ ( v ) ∈ V ∗ ∗ \Phi(\boldsymbol{v}) \in V^{**} Φ(v)∈V∗∗,满足:

Φ ( v ) ( ϕ ) = ϕ ( v ) , ∀ ϕ ∈ V ∗ \Phi(\boldsymbol{v})(\phi) = \phi(\boldsymbol{v}), \quad \forall \phi \in V^* Φ(v)(ϕ)=ϕ(v),∀ϕ∈V∗

性质

  • 同构性 :对于有限维向量空间, V V V 与 V ∗ ∗ V^{**} V∗∗ 同构。
  • 反射性:双对偶空间反映了原空间的结构和性质。

应用

  • 泛函分析:双对偶空间在泛函分析中用于研究线性算子的性质。
  • 表示理论:在表示理论中,双对偶空间用于描述双线性形式和复合映射。

分块矩阵

分块矩阵的定义

分块矩阵 是将一个大矩阵划分为若干个小矩阵块进行表示的矩阵形式。设 A A A 是一个 m × n m \times n m×n 的矩阵,可以分块表示为:

A = [ A 11 A 12 ⋯ A 1 k A 21 A 22 ⋯ A 2 k ⋮ ⋮ ⋱ ⋮ A k 1 A k 2 ⋯ A k k ] A = \begin{bmatrix} A_{11} & A_{12} & \cdots & A_{1k} \\ A_{21} & A_{22} & \cdots & A_{2k} \\ \vdots & \vdots & \ddots & \vdots \\ A_{k1} & A_{k2} & \cdots & A_{kk} \\ \end{bmatrix} A= A11A21⋮Ak1A12A22⋮Ak2⋯⋯⋱⋯A1kA2k⋮Akk

其中, A i j A_{ij} Aij 是第 i i i 行第 j j j 列的子矩阵块。

分块矩阵的运算

  • 加法与减法:对应块进行加法或减法。
  • 乘法:通过块的乘法和加法实现。
  • 求逆:在特定条件下,分块矩阵的逆可以通过Schur补实现。

应用

  • 简化计算:将大矩阵分块后,可以简化矩阵运算和求逆过程。
  • 数值方法:分块矩阵在数值线性代数中的迭代方法和分解方法中广泛应用。
  • 工程与科学计算:用于处理复杂系统的矩阵表示,如电路网络和结构工程中的矩阵。

按块LU分解

定义

按块LU分解 是将一个分块矩阵分解为分块下三角矩阵 L L L 和分块上三角矩阵 U U U 的乘积,即:

A = L U A = LU A=LU

其中, L L L 和 U U U 也是分块矩阵,且具有下三角和上三角的块结构。

方法

  1. 划分矩阵块 :将矩阵 A A A 划分为若干块。
  2. 递归分解:对每个块进行LU分解,并递归处理。
  3. 求解Schur补:利用Schur补的方法处理剩余的矩阵部分。

应用

  • 高效计算:通过按块操作,可以利用矩阵的结构进行高效计算,尤其在处理稀疏矩阵时。
  • 并行计算:分块LU分解适合并行计算,提高计算效率。
  • 大型线性系统求解:用于分布式系统中求解大型线性方程组。

Schur分解

Schur分解的定义

Schur分解 是将一个复方阵表示为一个酉矩阵与一个上三角矩阵的乘积,即:
A = Q U Q ∗ A = QUQ^* A=QUQ∗

其中, Q Q Q 是酉矩阵(即 Q ∗ Q = Q Q ∗ = I Q^* Q = QQ^* = I Q∗Q=QQ∗=I), U U U 是上三角矩阵。

分解条件

任何复方阵都可以进行 Schur 分解。

分解方法

  1. 对矩阵 A A A 进行 QR 分解。
  2. 通过迭代应用 QR 分解,直到上三角矩阵 U U U 收敛。

应用

  • 特征值计算:Schur 分解在数值特征值算法中广泛应用。
  • 稳定性分析:用于判断矩阵的稳定性和动力系统的性质。

Polar分解

Polar分解的定义

Polar分解 是将一个矩阵表示为一个正交矩阵与一个半正定矩阵的乘积,即:
A = U P A = UP A=UP

其中, U U U 是正交矩阵, P P P 是半正定矩阵。

分解条件

任何实矩阵都可以进行 Polar 分解。

分解方法

  1. 计算 P = A T A P = \sqrt{A^T A} P=ATA 。
  2. 计算 U = A P − 1 U = A P^{-1} U=AP−1。

应用

  • 量子力学:用于描述量子态的演化。
  • 图像处理:用于图像的旋转和缩放。

矩阵的秩

矩阵秩的定义

一个矩阵的 ,记作 rank ( A ) \text{rank}(A) rank(A),是矩阵中最大线性无关行(或列)的数量。

秩的性质

  • 行秩等于列秩:对于任何矩阵,行秩与列秩相等。
  • 子空间关系 : rank ( A ) = dim ⁡ ( C ( A ) ) = dim ⁡ ( R ( A ) ) \text{rank}(A) = \dim(\mathcal{C}(A)) = \dim(\mathcal{R}(A)) rank(A)=dim(C(A))=dim(R(A)),其中 C ( A ) \mathcal{C}(A) C(A) 是列空间, R ( A ) \mathcal{R}(A) R(A) 是行空间。
  • 矩阵乘积的秩
    rank ( A B ) ≤ min ⁡ ( rank ( A ) , rank ( B ) ) \text{rank}(AB) \leq \min(\text{rank}(A), \text{rank}(B)) rank(AB)≤min(rank(A),rank(B))

秩的计算方法

  • 行简化阶梯形:通过高斯消元法将矩阵转化为行简化阶梯形,非零行的数量即为秩。
  • 奇异值分解(SVD):非零奇异值的数量等于矩阵的秩。

应用

  • 线性方程组:判断方程组的解的存在性和唯一性。
  • 最小二乘问题:分析最小二乘解的唯一性。
  • 矩阵分解:在各种矩阵分解中,秩是一个关键参数。

向量空间的正交补

正交补的定义

在向量空间 V V V 中,对于子空间 W W W,其正交补 W ⊥ W^\perp W⊥ 定义为:
W ⊥ = { v ∈ V ∣ v ⊥ w , ∀ w ∈ W } W^\perp = \{\boldsymbol{v} \in V \mid \boldsymbol{v} \perp \boldsymbol{w}, \forall \boldsymbol{w} \in W\} W⊥={v∈V∣v⊥w,∀w∈W}

正交补的性质

  • 维数关系
    dim ⁡ ( W ) + dim ⁡ ( W ⊥ ) = dim ⁡ ( V ) \dim(W) + \dim(W^\perp) = \dim(V) dim(W)+dim(W⊥)=dim(V)
  • 双正交补
    ( W ⊥ ) ⊥ = W (W^\perp)^\perp = W (W⊥)⊥=W
  • 子空间交集
    W ∩ W ⊥ = { 0 } W \cap W^\perp = \{\boldsymbol{0}\} W∩W⊥={0}

应用

  • 分解定理 :任何向量可以唯一地表示为 W W W 中的向量与 W ⊥ W^\perp W⊥ 中的向量之和。
  • 最小二乘问题:解的存在性与正交补相关。
  • 信号处理:正交补用于信号的分离与滤波。

特征向量的正交性

特征向量正交性的条件

对于对称矩阵 A A A,不同特征值对应的特征向量是正交的。

正交特征向量组

如果 A A A 是对称矩阵,则存在一组正交的特征向量基,使得:
Q T A Q = Λ Q^T A Q = \Lambda QTAQ=Λ

其中, Q Q Q 是由正交特征向量构成的矩阵, Λ \Lambda Λ 是对角矩阵,包含 A A A 的特征值。

应用

  • 谱分解:利用正交特征向量进行矩阵的谱分解。
  • 主成分分析(PCA):通过正交特征向量实现数据降维。
  • 稳定性分析:正交特征向量用于分析系统的稳定性。

矩阵函数

矩阵函数的定义

矩阵函数 是将标量函数扩展到矩阵上的方法。例如,对于一个标量函数 f ( λ ) f(\lambda) f(λ),其矩阵函数 f ( A ) f(A) f(A) 定义为:
f ( A ) = ∑ k = 0 ∞ f ( k ) ( 0 ) k ! A k f(A) = \sum_{k=0}^{\infty} \frac{f^{(k)}(0)}{k!} A^k f(A)=k=0∑∞k!f(k)(0)Ak

常见的矩阵函数

  • 矩阵指数
    e A = ∑ k = 0 ∞ A k k ! e^A = \sum_{k=0}^{\infty} \frac{A^k}{k!} eA=k=0∑∞k!Ak
  • 矩阵对数
    对于可逆矩阵 A A A,其对数定义为:
    log ⁡ ( A ) = ∑ k = 1 ∞ ( − 1 ) k + 1 k ( A − I ) k \log(A) = \sum_{k=1}^{\infty} \frac{(-1)^{k+1}}{k} (A - I)^k log(A)=k=1∑∞k(−1)k+1(A−I)k
  • 矩阵的幂
    对于整数 k k k,
    A k = A ⋅ A ⋯ A ( k 次 ) A^k = A \cdot A \cdots A \quad (k \text{ 次}) Ak=A⋅A⋯A(k 次)

矩阵函数的性质

  • 相似变换不变性
    如果 A = P B P − 1 A = PBP^{-1} A=PBP−1,则
    f ( A ) = P f ( B ) P − 1 f(A) = Pf(B)P^{-1} f(A)=Pf(B)P−1
  • 可加性与齐次性
    对于标量函数 f f f,某些矩阵函数满足
    f ( A + B ) = f ( A ) + f ( B ) , f ( c A ) = c f ( A ) f(A + B) = f(A) + f(B), \quad f(cA) = c f(A) f(A+B)=f(A)+f(B),f(cA)=cf(A)
    但这取决于具体的函数形式。

应用

  • 微分方程求解:利用矩阵指数求解线性微分方程组。
  • 控制理论:矩阵函数用于描述系统的状态转移。
  • 量子力学:矩阵函数用于描述量子态的演化。

Hessenberg矩阵

Hessenberg矩阵的定义

一个Hessenberg矩阵 是一个上 Hessenberg 阶矩阵,其下三角部分仅有第一条下对角线上的元素可能不为零:
H = [ h 11 h 12 ⋯ h 1 n h 21 h 22 ⋱ ⋮ 0 h 32 ⋱ h 3 n ⋮ ⋱ ⋱ h ( n − 1 ) n 0 ⋯ 0 h n n ] H = \begin{bmatrix} h_{11} & h_{12} & \cdots & h_{1n} \\ h_{21} & h_{22} & \ddots & \vdots \\ 0 & h_{32} & \ddots & h_{3n} \\ \vdots & \ddots & \ddots & h_{(n-1)n} \\ 0 & \cdots & 0 & h_{nn} \end{bmatrix} H= h11h210⋮0h12h22h32⋱⋯⋯⋱⋱⋱0h1n⋮h3nh(n−1)nhnn

Hessenberg矩阵的性质

  • 简化计算:上 Hessenberg结构简化了特征值算法的步骤。
  • 相似性 :对于任意方阵 A A A,存在酉矩阵 Q Q Q 使得 Q ∗ A Q Q^* A Q Q∗AQ 是上 Hessenberg 矩阵。

应用

  • 数值特征值计算:Hessenberg形式是许多特征值算法(如QR算法)的预处理步骤。
  • 数值稳定性:保持数值稳定性的同时,简化了矩阵运算。

极分解 (Polar Decomposition)

极分解的定义

极分解 是将一个矩阵分解为一个酉矩阵与一个正定矩阵的乘积,即:
A = U P A = UP A=UP

其中, U U U 是酉矩阵, P P P 是正定矩阵。

分解条件

任何复矩阵都可以进行极分解。

分解方法

  1. 计算 P = A ∗ A P = \sqrt{A^* A} P=A∗A 。
  2. 计算 U = A P − 1 U = A P^{-1} U=AP−1。

应用

  • 量子力学:用于描述量子态的演化和变换。
  • 信号处理:用于信号的旋转和放缩操作。
  • 计算机图形学:用于图像和模型的变换。

奇异值分解的进一步性质

奇异值的几何意义

  • 奇异值分解 (SVD) 将矩阵 A A A 分解为:
    A = U Σ V T A = U \Sigma V^T A=UΣVT

    其中, U U U 和 V V V 是正交矩阵, Σ \Sigma Σ 是对角矩阵,包含奇异值。

  • 几何解释

    • Σ \Sigma Σ 的对角线 上的奇异值代表了矩阵 A A A 在相应方向上的伸缩比例。
    • U U U 和 V V V 分别定义了输入空间和输出空间的正交基。

奇异值分解的性质

  • 存在性:任何矩阵都可以进行奇异值分解。
  • 唯一性 :奇异值按照降序排列,且分解的 U U U 和 V V V 在奇异值重复时不唯一。
  • 最优近似:SVD 提供了矩阵在低秩近似方面的最优解。

应用

  • 数据压缩:减少数据维度同时保留重要信息。
  • 图像处理:图像压缩与去噪。
  • 推荐系统:矩阵分解用于预测用户偏好。
  • 自然语言处理:潜在语义分析(LSA)。

四则运算

矩阵的加法与减法

  • 加法 :两个矩阵相加,要求它们的维数相同。
    ( A + B ) i j = a i j + b i j (A + B){ij} = a{ij} + b_{ij} (A+B)ij=aij+bij
  • 减法 :类似于加法。
    ( A − B ) i j = a i j − b i j (A - B){ij} = a{ij} - b_{ij} (A−B)ij=aij−bij

矩阵的数乘

  • 定义 :矩阵的每个元素乘以一个标量。
    ( c A ) i j = c ⋅ a i j (cA){ij} = c \cdot a{ij} (cA)ij=c⋅aij

矩阵乘法

  • 定义 :矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} A∈Rm×n 与矩阵 B ∈ R n × p B \in \mathbb{R}^{n \times p} B∈Rn×p 的乘积 A B AB AB 为矩阵 C ∈ R m × p C \in \mathbb{R}^{m \times p} C∈Rm×p,其中:
    c i j = ∑ k = 1 n a i k b k j c_{ij} = \sum_{k=1}^n a_{ik} b_{kj} cij=k=1∑naikbkj
  • 性质
    • 结合律 : ( A B ) C = A ( B C ) (AB)C = A(BC) (AB)C=A(BC)
    • 分配律 : A ( B + C ) = A B + A C A(B + C) = AB + AC A(B+C)=AB+AC
    • 不满足交换律 :通常 A B ≠ B A AB \neq BA AB=BA

特殊乘法

  • Hadamard积(元素乘积)
    ( A ∘ B ) i j = a i j b i j (A \circ B){ij} = a{ij} b_{ij} (A∘B)ij=aijbij
  • Kronecker积
    已在克罗内克积章节中说明。

矩阵的秩、迹与特征值的关系

矩阵的秩与迹

  • :矩阵秩等于其列空间或行空间的维数。
  • :矩阵的迹等于其特征值的和。

矩阵的秩与特征值

  • 关系
    rank ( A ) = number of non-zero singular values = number of non-zero eigenvalues of A T A \text{rank}(A) = \text{number of non-zero singular values} = \text{number of non-zero eigenvalues of } A^T A rank(A)=number of non-zero singular values=number of non-zero eigenvalues of ATA

应用

  • 矩阵分解:秩和迹在矩阵分解中提供重要信息。
  • 系统分析:在控制理论和系统工程中,用于评估系统的可控性和可观性。

条件数

条件数的定义

矩阵 A A A 的条件数 ,记作 κ ( A ) \kappa(A) κ(A),是矩阵范数与其逆矩阵范数的乘积:

κ ( A ) = ∥ A ∥ ⋅ ∥ A − 1 ∥ \kappa(A) = \|A\| \cdot \|A^{-1}\| κ(A)=∥A∥⋅∥A−1∥

当 A A A 可逆时,该值定义;否则,条件数为无穷大。

条件数的意义

  • 数值稳定性:条件数衡量了矩阵的可逆性,条件数越大,矩阵越接近奇异,求解线性方程组的数值解越不稳定。
  • 误差放大 :线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 的解对输入数据 b \boldsymbol{b} b 的相对变化的放大程度至少由条件数 κ ( A ) \kappa(A) κ(A) 决定。

条件数的计算

  • 使用谱范数时:

κ 2 ( A ) = σ max ⁡ ( A ) σ min ⁡ ( A ) \kappa_2(A) = \frac{\sigma_{\max}(A)}{\sigma_{\min}(A)} κ2(A)=σmin(A)σmax(A)

其中, σ max ⁡ ( A ) \sigma_{\max}(A) σmax(A) 和 σ min ⁡ ( A ) \sigma_{\min}(A) σmin(A) 分别是矩阵 A A A 的最大和最小奇异值。

应用

  • 数值分析:用于评估算法的数值稳定性。
  • 优化:高条件数可能导致优化算法收敛缓慢。
  • 工程:在传感器数据处理中,高条件数可能导致不准确的测量结果。

Power 方法

Power 方法的定义

Power 方法 是一种迭代算法,用于计算矩阵 A A A 的最大绝对值特征值及其对应的特征向量。

算法步骤

  1. 选择一个初始非零向量 x ( 0 ) \boldsymbol{x}^{(0)} x(0)。
  2. 对于 k = 0 , 1 , 2 , ... k = 0, 1, 2, \dotsc k=0,1,2,...,执行以下步骤:
    y ( k + 1 ) = A x ( k ) \boldsymbol{y}^{(k+1)} = A \boldsymbol{x}^{(k)} y(k+1)=Ax(k)
    x ( k + 1 ) = y ( k + 1 ) ∥ y ( k + 1 ) ∥ \boldsymbol{x}^{(k+1)} = \frac{\boldsymbol{y}^{(k+1)}}{\|\boldsymbol{y}^{(k+1)}\|} x(k+1)=∥y(k+1)∥y(k+1)
  3. 当 ∥ x ( k + 1 ) − x ( k ) ∥ \|\boldsymbol{x}^{(k+1)} - \boldsymbol{x}^{(k)}\| ∥x(k+1)−x(k)∥ 足够小时,停止迭代。

收敛性

  • 当矩阵 A A A 的最大特征值具有唯一的绝对值时,Power 方法收敛于该特征值及其对应的特征向量。

应用

  • 特征值计算:用于求解大型稀疏矩阵的主特征值。
  • 图论:PageRank 算法的基础。
  • 数据分析:主成分分析的初步步骤。

Rayleigh 商

Rayleigh 商的定义

对于矩阵 A A A 和非零向量 x \boldsymbol{x} x,Rayleigh 商定义为:

R ( A , x ) = x T A x x T x R(A, \boldsymbol{x}) = \frac{\boldsymbol{x}^T A \boldsymbol{x}}{\boldsymbol{x}^T \boldsymbol{x}} R(A,x)=xTxxTAx

性质

  • 特征值的极值 :Rayleigh 商在向量 x \boldsymbol{x} x 为特征向量时,取到对应的特征值。
  • 界限性质:矩阵的最小特征值和最大特征值分别是 Rayleigh 商在所有非零向量中的最小值和最大值。

应用

  • 特征值优化:用于计算矩阵的最大和最小特征值。
  • 数值算法:Rayleigh 商迭代法用于提高特征值计算的精度。
  • 稳定性分析:评估矩阵在特定向量方向上的行为。

条件数与矩阵稳定性

条件数与解的稳定性

矩阵 A A A 的条件数 κ ( A ) \kappa(A) κ(A) 直接影响线性方程组 A x = b A\boldsymbol{x} = \boldsymbol{b} Ax=b 解的稳定性。具体来说:

∥ Δ x ∥ ∥ x ∥ ≤ κ ( A ) ⋅ ∥ Δ b ∥ ∥ b ∥ \frac{\|\Delta \boldsymbol{x}\|}{\|\boldsymbol{x}\|} \leq \kappa(A) \cdot \frac{\|\Delta \boldsymbol{b}\|}{\|\boldsymbol{b}\|} ∥x∥∥Δx∥≤κ(A)⋅∥b∥∥Δb∥

其中, Δ x \Delta \boldsymbol{x} Δx 和 Δ b \Delta \boldsymbol{b} Δb 分别是解和右端向量的扰动。

数值线性代数中的条件数

  • 误差分析:在数值计算中,条件数用于预测解的误差上界。
  • 算法选择:高条件数矩阵需要使用数值更稳定的算法,如带主元的高斯消元法。

应用示例

  • 工程计算:在结构分析中,条件数用于评估模型的敏感性。
  • 数据拟合:在回归分析中,条件数用于检测模型参数的多重共线性。
相关推荐
小小逆向11 分钟前
[SWPUCTF 2021 新生赛]老鼠走迷宫
笔记
俸涛努力学前端1 小时前
ajax (一)
开发语言·前端·javascript·笔记·ajax
Leweslyh1 小时前
线性代数的发展简史
线性代数
键盘敲没电2 小时前
【iOS】知乎日报总结
学习·ios·objective-c·xcode
慕卿扬2 小时前
基于python的机器学习(四)—— 聚类(一)
笔记·python·学习·机器学习·聚类
家有狸花2 小时前
Node.js笔记(二):Socket.io
笔记·node.js
虾球xz2 小时前
游戏引擎学习第22天
学习·游戏引擎
micro_xx2 小时前
Matlab 深度学习工具箱 案例学习与测试————求二阶微分方程
深度学习·学习·matlab
等什么君!3 小时前
学习Servlet( Servlet实现方式2)
学习·servlet
是垚不是土3 小时前
Ansible--自动化运维工具
运维·git·学习·自动化·云计算·ansible