线性代数 · SVD | 奇异值分解的早期历史(二)

注:本文为 "线性代数 · SVD" 相关英文引文,机翻未校。

如有内容异常,请看原文。

csdn 篇幅字数限制,分为两篇,此为第二篇。



6. Weyl [64, 1912]

6. 外尔的研究 [64, 1912]

An important application of the approximation theorem is the determination of the rank of a matrix in the presence of error. If A A A is of rank k k k and A ~ = A + E \tilde{A} = A + E A~=A+E, then the last n − k n - k n−k singular values of A ~ \tilde{A} A~ satisfy

近似定理的一个重要应用是在存在误差的情况下确定矩阵的秩。若矩阵 A A A 的秩为 k k k,且 A ~ = A + E \tilde{A} = A + E A~=A+E(其中 E E E 为误差矩阵),则 A ~ \tilde{A} A~ 的后 n − k n - k n−k 个奇异值满足
( 6.1 ) σ ~ k + 1 2 + ⋯ + σ ~ n 2 ≤ ∥ E ∥ 2 , (6.1) \quad \tilde{\sigma}{k+1}^{2} + \cdots + \tilde{\sigma}{n}^{2} \leq \| E \|^{2}, (6.1)σ~k+12+⋯+σ~n2≤∥E∥2,

so that the defect in rank of A A A will be manifest in the size of its trailing singular values.

因此,矩阵 A A A 的秩亏损情况可通过其(近似矩阵 A ~ \tilde{A} A~ 的)后几个奇异值的大小体现出来。

The inequality (6.1) is actually a perturbation theorem for the zero singular values of a matrix. Weyl's contribution to the theory of the singular value decomposition was to develop a general perturbation theory and use it to give an elegant proof of the approximation theorem. Although Weyl treated integral equations with symmetric kernels, in a footnote on Schmidt's contribution he states, "E. Schmidt's theorem, by the way, treats arbitrary (unsymmetric) kernels; however, our proof can also be applied directly to this more general case." Since here we are concerned with the more general case, we will paraphrase Weyl's development as he might have written it for unsymmetric matrices.

不等式(6.1) 本质上是矩阵零奇异值的扰动定理。外尔对奇异值分解理论的贡献在于,他建立了一套通用的扰动理论,并利用该理论为近似定理提供了简洁优雅的证明。尽管外尔的研究对象是具有对称核的积分方程,但他在关于施密特贡献的注释中指出:"顺便提一句,埃哈德·施密特的定理适用于任意(非对称)核;而我们提出的证明方法同样可直接应用于这一更一般的情形。"由于本文关注的正是这一更一般的情形,下文将借鉴外尔的研究思路,模拟他可能会如何针对非对称矩阵展开推导。

The location of singular values

奇异值的定位

The heart of Weyl's development is a lemma concerning the singular values of a perturbed matrix. Specifically, if B k = X Y T B_k = XY^T Bk=XYT, where X X X and Y Y Y have k k k columns (i.e., rank ( B k ) ≤ k \text{rank}(B_k) \leq k rank(Bk)≤k), then

奇异值的位置。Weyl发展的关键在于一个关于扰动矩阵奇异值的引理。具体来说,如果 B k = X Y T B_k = XY^T Bk=XYT,其中 X X X 和 Y Y Y 有 k k k 列(即, rank ( B k ) ≤ k \text{rank}(B_k) \leq k rank(Bk)≤k),则

σ 1 ( A − B k ) ≥ σ k + 1 ( A ) , \sigma_1(A - B_k) \geq \sigma_{k+1}(A), σ1(A−Bk)≥σk+1(A),

where σ i ( ⋅ ) \sigma_i(\cdot) σi(⋅) denotes the i i ith singular value of its argument.

其中 σ i ( ⋅ ) \sigma_i(\cdot) σi(⋅) 表示其参数的第 i i i 个奇异值。

The proof is simple. Since Y Y Y has k k k columns, there is a linear combination

证明很简单。由于 Y Y Y 有 k k k 列,存在 V V V 的前 k + 1 k+1 k+1 列(来自 A A A 的奇异值分解)的线性组合

v = γ 1 v 1 + γ 2 v 2 + ⋯ + γ k + 1 v k + 1 v = \gamma_1 v_1 + \gamma_2 v_2 + \cdots + \gamma_{k+1} v_{k+1} v=γ1v1+γ2v2+⋯+γk+1vk+1

of the first k + 1 k+1 k+1 columns of V V V (from the singular value decomposition of A A A) such that Y T v = 0 Y^T v = 0 YTv=0. Without loss of generality we may assume that ∥ v ∥ = 1 \|v\| = 1 ∥v∥=1, or equivalently that γ 1 2 + ⋯ + γ k + 1 2 = 1 \gamma_1^2 + \cdots + \gamma_{k+1}^2 = 1 γ12+⋯+γk+12=1. It follows that

使得 Y T v = 0 Y^T v = 0 YTv=0。不失一般性,我们可以假设 ∥ v ∥ = 1 \|v\| = 1 ∥v∥=1,或者等价地 γ 1 2 + ⋯ + γ k + 1 2 = 1 \gamma_1^2 + \cdots + \gamma_{k+1}^2 = 1 γ12+⋯+γk+12=1。由此可得

σ 1 2 ( A − B ) ≥ v T ( A − B ) T ( A − B ) v = v T A T A v = γ 1 2 σ 1 2 + γ 2 2 σ 2 2 + ⋯ + γ k + 1 2 σ k + 1 2 ≥ σ k + 1 2 . \begin{align*} \sigma _{1}^{2}(A-B) & \ge {{v}^{T}}{{(A-B)}^{T}}(A-B)v \\ & ={{v}^{T}}{{A}^{T}}Av \\ & =\gamma _{1}^{2}\sigma _{1}^{2}+\gamma _{2}^{2}\sigma _{2}^{2}+\cdots +\gamma _{k+1}^{2}\sigma _{k+1}^{2} \\ & \ge \sigma _{k+1}^{2}. \end{align*} σ12(A−B)≥vT(A−B)T(A−B)v=vTATAv=γ12σ12+γ22σ22+⋯+γk+12σk+12≥σk+12.

Weyl then proves two theorems. The first states that if A = A ′ + A ′ ′ A = A' + A'' A=A′+A′′, then

随后,外尔证明了两个定理。第一个定理指出,若 A = A ′ + A ′ ′ A = A' + A'' A=A′+A′′,则
( 6.3 ) σ i + j − 1 ( A ) ≤ σ i ( A ′ ) + σ j ( A ′ ′ ) , (6.3) \quad \sigma_{i+j-1}(A) \leq \sigma_{i}(A') + \sigma_{j}(A''), (6.3)σi+j−1(A)≤σi(A′)+σj(A′′),

where the σ i ( A ′ ) \sigma_{i}(A') σi(A′) and σ i ( A ′ ′ ) \sigma_{i}(A'') σi(A′′) are the singular values of A ′ A' A′ and A ′ ′ A'' A′′ arranged in descending order of magnitude. Weyl begins by establishing (6.3) for i = j = 1 i = j = 1 i=j=1:

其中, σ i ( A ′ ) \sigma_{i}(A') σi(A′) 和 σ i ( A ′ ′ ) \sigma_{i}(A'') σi(A′′) 分别表示矩阵 A ′ A' A′ 和 A ′ ′ A'' A′′ 按从大到小顺序排列的第 i i i 个奇异值。外尔首先证明了 i = j = 1 i = j = 1 i=j=1 时式 (6.3) 成立:
σ 1 ( A ) = u 1 T A v 1 = u 1 T A ′ v 1 + u 1 T A ′ ′ v 1 ≤ σ 1 ( A ′ ) + σ 1 ( A ′ ′ ) . \sigma_{1}(A) = u_{1}^{T} A v_{1} = u_{1}^{T} A' v_{1} + u_{1}^{T} A'' v_{1} \leq \sigma_{1}(A') + \sigma_{1}(A''). σ1(A)=u1TAv1=u1TA′v1+u1TA′′v1≤σ1(A′)+σ1(A′′).

Here, u 1 u_1 u1 and v 1 v_1 v1 are the first columns of the unitary matrices in the singular value decomposition of A A A.

在这里, u 1 u_1 u1 和 v 1 v_1 v1 是矩阵 A A A 奇异值分解中酉矩阵的第一列。

To establish the result in general, let A i − 1 ′ = ∑ m = 1 i − 1 σ m ( A ′ ) u m ′ v m ′ T A_{i-1}' = \sum_{m=1}^{i-1} \sigma_{m}(A') u_m' v_m'^T Ai−1′=∑m=1i−1σm(A′)um′vm′T and A j − 1 ′ ′ = ∑ m = 1 j − 1 σ m ( A ′ ′ ) u m ′ ′ v m ′ ′ T A_{j-1}'' = \sum_{m=1}^{j-1} \sigma_{m}(A'') u_m'' v_m''^T Aj−1′′=∑m=1j−1σm(A′′)um′′vm′′T be formed in analogy with (5.2). Then σ 1 ( A ′ − A i − 1 ′ ) = σ i ( A ′ ) \sigma_{1}(A' - A_{i-1}') = \sigma_{i}(A') σ1(A′−Ai−1′)=σi(A′) and σ 1 ( A ′ ′ − A j − 1 ′ ′ ) = σ j ( A ′ ′ ) \sigma_{1}(A'' - A_{j-1}'') = \sigma_{j}(A'') σ1(A′′−Aj−1′′)=σj(A′′). Moreover, rank ( A i − 1 ′ + A j − 1 ′ ′ ) ≤ ( i − 1 ) + ( j − 1 ) = i + j − 2 (A_{i-1}' + A_{j-1}'') \leq (i-1) + (j-1) = i+j-2 (Ai−1′+Aj−1′′)≤(i−1)+(j−1)=i+j−2. From these facts and from (6.2) it follows that

为证明该定理在一般情况下成立,参照式 (5.2) 构造矩阵: A i − 1 ′ = ∑ m = 1 i − 1 σ m ( A ′ ) u m ′ v m ′ T A_{i-1}' = \sum_{m=1}^{i-1} \sigma_{m}(A') u_m' v_m'^T Ai−1′=∑m=1i−1σm(A′)um′vm′T, A j − 1 ′ ′ = ∑ m = 1 j − 1 σ m ( A ′ ′ ) u m ′ ′ v m ′ ′ T A_{j-1}'' = \sum_{m=1}^{j-1} \sigma_{m}(A'') u_m'' v_m''^T Aj−1′′=∑m=1j−1σm(A′′)um′′vm′′T。则有 σ 1 ( A ′ − A i − 1 ′ ) = σ i ( A ′ ) \sigma_{1}(A' - A_{i-1}') = \sigma_{i}(A') σ1(A′−Ai−1′)=σi(A′), σ 1 ( A ′ ′ − A j − 1 ′ ′ ) = σ j ( A ′ ′ ) \sigma_{1}(A'' - A_{j-1}'') = \sigma_{j}(A'') σ1(A′′−Aj−1′′)=σj(A′′),且 rank ( A i − 1 ′ + A j − 1 ′ ′ ) ≤ ( i − 1 ) + ( j − 1 ) = i + j − 2 \text{rank}(A_{i-1}' + A_{j-1}'') \leq (i-1) + (j-1) = i+j-2 rank(Ai−1′+Aj−1′′)≤(i−1)+(j−1)=i+j−2。结合这些结论与式 (6.2) 可推出:
σ i ( A ′ ) + σ j ( A ′ ′ ) = σ 1 ( A ′ − A i − 1 ′ ) + σ 1 ( A ′ ′ − A j − 1 ′ ′ ) ≥ σ 1 ( ( A ′ − A i − 1 ′ ) + ( A ′ ′ − A j − 1 ′ ′ ) ) = σ 1 ( A − ( A i − 1 ′ + A j − 1 ′ ′ ) ) ≥ σ ( i + j − 2 ) + 1 ( A ) = σ i + j − 1 ( A ) , \begin{aligned} \sigma_{i}(A') + \sigma_{j}(A'') &= \sigma_{1}(A' - A_{i-1}') + \sigma_{1}(A'' - A_{j-1}'') \\ &\geq \sigma_{1}\left( (A' - A_{i-1}') + (A'' - A_{j-1}'') \right) \\ &= \sigma_{1}\left( A - (A_{i-1}' + A_{j-1}'') \right) \\ &\geq \sigma_{(i+j-2)+1}(A) = \sigma_{i+j-1}(A), \end{aligned} σi(A′)+σj(A′′)=σ1(A′−Ai−1′)+σ1(A′′−Aj−1′′)≥σ1((A′−Ai−1′)+(A′′−Aj−1′′))=σ1(A−(Ai−1′+Aj−1′′))≥σ(i+j−2)+1(A)=σi+j−1(A),

which proves the theorem.

从而完成了定理的证明。

The second theorem is really a corollary of the first. Set A ′ = A − B k A' = A - B_k A′=A−Bk and A ′ ′ = B k A'' = B_k A′′=Bk, where, as above, B k B_k Bk has rank ≤ k \leq k ≤k. Since σ 1 ( A ′ ′ ) = σ 1 ( B k ) ≤ ∥ B k ∥ \sigma_{1}(A'') = \sigma_{1}(B_k) \leq \| B_k \| σ1(A′′)=σ1(Bk)≤∥Bk∥ and σ k + 1 ( A ′ ′ ) = 0 \sigma_{k+1}(A'') = 0 σk+1(A′′)=0 (because rank ( B k ) ≤ k (B_k) \leq k (Bk)≤k), we have on setting j = k + 1 j = k+1 j=k+1 in (6.3),

第二个定理实际上是第一个定理的推论。令 A ′ = A − B k A' = A - B_k A′=A−Bk、 A ′ ′ = B k A'' = B_k A′′=Bk(其中 B k B_k Bk 的秩满足 rank ( B k ) ≤ k \text{rank}(B_k) \leq k rank(Bk)≤k,与前文定义一致)。由于 σ 1 ( A ′ ′ ) = σ 1 ( B k ) ≤ ∥ B k ∥ \sigma_{1}(A'') = \sigma_{1}(B_k) \leq \| B_k \| σ1(A′′)=σ1(Bk)≤∥Bk∥,且 σ k + 1 ( A ′ ′ ) = 0 \sigma_{k+1}(A'') = 0 σk+1(A′′)=0(因 rank ( B k ) ≤ k \text{rank}(B_k) \leq k rank(Bk)≤k),在式 (6.3) 中令 j = k + 1 j = k+1 j=k+1 可得:
σ i ( A − B k ) ≥ σ k + i ( A ) , i = 1 , 2 , ... \sigma_{i}(A - B_k) \geq \sigma_{k+i}(A), \quad i = 1, 2, \dots σi(A−Bk)≥σk+i(A),i=1,2,...

As a corollary to this result we obtain

由该结论可进一步推出推论:
∥ A − B k ∥ 2 ≥ σ k + 1 2 ( A ) + ⋯ + σ n 2 ( A ) . {{\left\| A-{{B}_{k}} \right\|}^{2}}\ge \sigma _{k+1}^{2}(A)+\cdots +\sigma _{n}^{2}(A). ∥A−Bk∥2≥σk+12(A)+⋯+σn2(A).

This inequality is equivalent to (5.3) and thus establishes the approximation theorem.

该不等式与式 (5.3) 等价,由此证明了近似定理。

Discussion

讨论

Weyl did not actually write down the development for unsymmetric kernels, and we remind the reader once again of the advisability of consulting original sources. In particular, since symmetric kernels can have negative eigenvalues as well as positive ones, Weyl wrote down three sequences of inequalities: one for positive eigenvalues, one for negative, and one---corresponding to the inequalities presented here---for the absolute values of the eigenvalues.

需要说明的是,外尔并未实际展开非对称核情形下的推导,因此我们再次建议读者查阅原始文献以获取完整信息。具体而言,由于对称核的特征值既有正值也有负值,外尔在研究中推导了三组不等式:一组针对正特征值,一组针对负特征值,还有一组(与本文呈现的不等式对应)针对特征值的绝对值。

Returning to the perturbation problem that opened this section, if in (6.3) we make the identification A ← A ~ A \leftarrow \tilde{A} A←A~, A ′ ← A A' \leftarrow A A′←A, A ′ ′ ← E A'' \leftarrow E A′′←E, and then set j = 1 j = 1 j=1, we get

回到本节开篇的扰动问题,在式 (6.3) 中令 A ← A ~ A \leftarrow \tilde{A} A←A~、 A ′ ← A A' \leftarrow A A′←A、 A ′ ′ ← E A'' \leftarrow E A′′←E,并取 j = 1 j = 1 j=1,可得:
σ ~ i ≤ σ i + ∥ E ∥ 2 , \tilde{\sigma}{i} \leq \sigma{i} + \| E \|_2, σ~i≤σi+∥E∥2,

where ∥ E ∥ 2 = σ 1 ( E ) \| E \|_2 = \sigma_1(E) ∥E∥2=σ1(E) is the spectral norm of E E E. On the other hand, if we make the identifications A ′ ← A ~ A' \leftarrow \tilde{A} A′←A~ and A ′ ′ ← − E A'' \leftarrow -E A′′←−E, then we get

其中, ∥ E ∥ 2 = σ 1 ( E ) \| E \|2 = \sigma_1(E) ∥E∥2=σ1(E) 表示矩阵 E E E 的谱范数。另一方面,若令 A ′ ← A ~ A' \leftarrow \tilde{A} A′←A~、 A ′ ′ ← − E A'' \leftarrow -E A′′←−E,则可得:
σ i ≤ σ ~ i + ∥ E ∥ 2 . \sigma
{i} \leq \tilde{\sigma}_{i} + \| E \|_2. σi≤σ~i+∥E∥2.

It follows that

综合以上两式可得:
∣ σ ~ i − σ i ∣ ≤ ∥ E ∥ 2 , i = 1 , 2 , ... , n . | \tilde{\sigma}{i} - \sigma{i} | \leq \| E \|_2, \quad i = 1, 2, \dots, n. ∣σ~i−σi∣≤∥E∥2,i=1,2,...,n.

The number ∥ E ∥ 2 \| E \|_2 ∥E∥2 is called the spectral norm of E E E. Thus Weyl's result implies that if the singular values of A A A and A ~ \tilde{A} A~ are associated in their natural order, they cannot differ by more than the spectral norm of the perturbation.
∥ E ∥ 2 \| E \|_2 ∥E∥2 被称为矩阵 E E E 的谱范数。因此,外尔的结论表明:若将矩阵 A A A 与 A ~ \tilde{A} A~ 的奇异值按自然顺序(从大到小)对应,則对应奇异值之间的差值不会超过扰动矩阵 E E E 的谱范数。

7. Envoi

7. 结语

With Weyl's contribution, the theory of the singular value decomposition can be said to have matured. The subsequent history is one of extensions, new discoveries, and applications. What follows is a brief, selective sketch of these developments yet to come.

随着外尔研究成果的出现,奇异值分解理论可被认为已趋于成熟。此后的研究主要围绕理论拓展、新发现与实际应用展开。下文将有选择地简要介绍这些后续发展。

Extensions

理论拓展

Autonne [2, 1913] extended the decomposition to complex matrices. Eckart and Young [16, 1936], [17, 1939] extended it to rectangular matrices and rediscovered Schmidt's approximation theorem, which is often (and incorrectly) called the Eckart-Young theorem.

奥托恩(Autonne)在 1913 年的文献 [2] 中将奇异值分解推广到复矩阵情形。埃卡特(Eckart)与杨(Young)在 1936 年的文献 [16] 和 1939 年的文献 [17] 中,将其推广到长方矩阵情形,并重新发现了施密特的近似定理------该定理常被(错误地)称为"埃卡特-杨定理"。

8. Nomenclature 7 ^7 7

8. 术语命名

The term "singular value" seems to have come from the literature on integral equations. A little after the appearance of Schmidt's paper, Bateman [4, 1908] refers to numbers that are essentially the reciprocals of the eigenvalues of the kernel A ‾ ( s , t ) \underline{A}(s,t) A(s,t) as singular values. Picard [45, 1909] combined Schmidt's results with Riesz's theorem on the strong convergence of generalized Fourier series [48, 1907] to establish a necessary and sufficient condition for the existence of solutions of integral equations. In a later paper on the same subject [46, 1910], he notes that for symmetric kernels Schmidt's eigenvalues are real and in this case (but not in general) he calls them singular values. By 1937, Smithies [53] was referring to singular values of an integral equation in our modern sense of the word. Even at this point, usage had not stabilized. In 1949, Weyl [65] speaks of the "two kinds of eigenvalues of a linear transformation," and in a 1969 translation of a 1965 Russian treatise on nonselfadjoint operators, Gohberg and Krein [21] refer to the "s-numbers" of an operator. For the term "principal component," see below.

"奇异值"(singular value)这一术语的起源似乎与积分方程领域的文献相关。在施密特论文发表后不久,贝特曼(Bateman)在 1908 年的文献 [4] 中,将核 A ‾ ( s , t ) \underline{A}(s,t) A(s,t) 特征值的倒数(本质上)称为"奇异值"。皮卡德(Picard)在 1909 年的文献 [45] 中,将施密特的研究成果与里斯(Riesz)关于广义傅里叶级数强收敛的定理(1907 年文献 [48])相结合,建立了积分方程解存在的充要条件。在后续一篇关于同一主题的论文(1910 年文献 [46])中,他指出:对于对称核,施密特定义的特征值为实值,且仅在这种情形下(而非一般情形),他将其称为"奇异值"。到 1937 年,史密斯(Smithies)在文献 [53] 中使用的"积分方程奇异值"一词,已与我们现在对"奇异值"的定义一致。即便如此,该术语的使用仍未完全统一:1949 年,外尔在文献 [65] 中仍将其称为"线性变换的两类特征值";在 1969 年翻译的一本 1965 年苏联关于非自伴算子的专著中,戈德堡(Gohberg)与克赖因(Krein)在文献 [21] 中将其称为算子的"s-数"(s-numbers)。关于"主成分"(principal component)这一术语的由来,详见下文。

7 ^7 7Parts of this passage were taken from [55, p. 35]

⁷本文的部分内容取自 [55, 第35页]

相关分解

Beltrami's proof of the existence of the singular value decomposition shows that it is closely related to the spectral decompositions of A T A A^T A ATA and A A T A A^T AAT. It can also be used to derive the polar decomposition of Autonne [1, 1902], [3, 1915], in which a matrix is factored into the product of a positive semidefinite Hermitian matrix and a unitary matrix.

贝尔特拉米关于奇异值分解存在性的证明表明,奇异值分解与 A T A A^T A ATA 和 A A T A A^T AAT 的谱分解密切相关。此外,利用奇异值分解还可推导奥托恩提出的极分解(1902 年文献 [1]、1915 年文献 [3])------极分解将矩阵表示为一个半正定埃尔米特(Hermitian)矩阵与一个酉矩阵的乘积。

In his investigation of the geometry of n n n-space, Jordan [34, 1875] introduced canonical bases for pairs of subspaces. This line of development led to the CS (cosine-sine) decomposition of a partitioned orthogonal matrix introduced implicitly by Davis and Kahan [9, 1970], and explicitly in [54, 1977]. The CS decomposition can in turn be used to derive the generalized singular value decomposition of a matrix pair, either in the original form introduced by Van Loan [60] or in the revised version of Paige and Saunders [43, 1981]. Recently even broader generalizations of the singular value decomposition have been proposed, e.g., see [10].

若尔当在研究 n n n 维空间几何性质时(1875 年文献 [34]),提出了子空间对的标准基概念。这一研究方向最终催生了分块正交矩阵的 CS(余弦-正弦)分解------该分解最初由戴维斯(Davis)与卡汉(Kahan)在 1970 年的文献 [9] 中间接提出,后在 1977 年的文献 [54] 中被明确定义。利用 CS 分解又可进一步推导矩阵对的广义奇异值分解,无论是范·隆(Van Loan)在文献 [60] 中提出的原始形式,还是佩奇(Paige)与桑德斯(Saunders)在 1981 年文献 [43] 中提出的修正形式,均可通过该方法推导得到。近年来,学者们还提出了更具一般性的奇异值分解推广形式,例如可参见文献 [10]。

Although it is not, strictly speaking, a matrix decomposition, the Moore-Penrose pseudoinverse [41, 1920], [44, 1955] can be calculated from the singular value decomposition of a matrix as follows. Suppose that the first k k k singular values of A A A are nonzero while the last n − k n - k n−k are zero, and set ∑ † = diag ( σ 1 − 1 , ... , σ k − 1 , 0 , ... , 0 ) \sum^\dagger = \text{diag}(\sigma_1^{-1}, \dots, \sigma_k^{-1}, 0, \dots, 0) ∑†=diag(σ1−1,...,σk−1,0,...,0). Then the pseudoinverse of A A A is

尽管严格来说,摩尔-彭罗斯伪逆(Moore-Penrose pseudoinverse,1920 年文献 [41]、1955 年文献 [44])并非矩阵分解,但它可通过矩阵的奇异值分解计算得到:假设矩阵 A A A 的前 k k k 个奇异值非零,后 n − k n - k n−k 个奇异值为零,定义 ∑ † = diag ( σ 1 − 1 , ... , σ k − 1 , 0 , ... , 0 ) \sum^\dagger = \text{diag}(\sigma_1^{-1}, \dots, \sigma_k^{-1}, 0, \dots, 0) ∑†=diag(σ1−1,...,σk−1,0,...,0),则矩阵 A A A 的伪逆为
A † = V ∑ † U T . A^\dagger = V \sum^\dagger U^T. A†=V∑†UT.

Unitarily invariant norms

酉不变范数

A matrix norm ∥ ⋅ ∥ u \| \cdot \|_u ∥⋅∥u is unitarily invariant if ∥ U A V ∥ u = ∥ A ∥ u \| U A V \|_u = \| A \|_u ∥UAV∥u=∥A∥u for all unitary matrices U U U and V V V. A vector norm ∥ ⋅ ∥ g \| \cdot \|_g ∥⋅∥g is a symmetric gauge function if ∥ P x ∥ g = ∥ x ∥ g \| P x \|_g = \| x \|_g ∥Px∥g=∥x∥g for any permutation matrix P P P and ∥ ∣ x ∣ ∥ g = ∥ x ∥ g \| |x| \|_g = \| x \|_g ∥∣x∣∥g=∥x∥g (where ∣ x ∣ |x| ∣x∣ denotes the vector of absolute values of the components of x x x). Von Neumann [61, 1937] showed that to any unitarily invariant norm ∥ ⋅ ∥ u \| \cdot \|_u ∥⋅∥u there corresponds a symmetric gauge function ∥ ⋅ ∥ g \| \cdot \|_g ∥⋅∥g such that ∥ A ∥ u = ∥ ( σ 1 , ... , σ n ) T ∥ g \| A \|_u = \| (\sigma_1, \dots, \sigma_n)^T \|_g ∥A∥u=∥(σ1,...,σn)T∥g; i.e., a unitarily invariant norm is a symmetric gauge function of the singular values of its argument.

若对任意酉矩阵 U U U 和 V V V,均有 ∥ U A V ∥ u = ∥ A ∥ u \| U A V \|_u = \| A \|_u ∥UAV∥u=∥A∥u,则称矩阵范数 ∥ ⋅ ∥ u \| \cdot \|_u ∥⋅∥u 为酉不变范数。若对任意置换矩阵 P P P 和向量 x x x,均有 ∥ P x ∥ g = ∥ x ∥ g \| P x \|_g = \| x \|_g ∥Px∥g=∥x∥g,且 ∥ ∣ x ∣ ∥ g = ∥ x ∥ g \| |x| \|_g = \| x \|_g ∥∣x∣∥g=∥x∥g(其中 ∣ x ∣ |x| ∣x∣ 表示由 x x x 各分量绝对值构成的向量),则称向量范数 ∥ ⋅ ∥ g \| \cdot \|_g ∥⋅∥g 为对称规范函数。冯·诺依曼(Von Neumann)在 1937 年的文献 [61] 中证明:对任意酉不变范数 ∥ ⋅ ∥ u \| \cdot \|_u ∥⋅∥u,均存在对应的对称规范函数 ∥ ⋅ ∥ g \| \cdot \|_g ∥⋅∥g,使得 ∥ A ∥ u = ∥ ( σ 1 , ... , σ n ) T ∥ g \| A \|_u = \| (\sigma_1, \dots, \sigma_n)^T \|_g ∥A∥u=∥(σ1,...,σn)T∥g;也就是说,酉不变范数可表示为其作用矩阵奇异值的对称规范函数。

Approximation theorems

近似定理

Schmidt's approximation theorem has been generalized in a number of directions. Mirsky [40, 1960] showed that A k A_k Ak of (5.2) is a minimizing matrix in any unitarily invariant norm. The case where further restrictions are imposed on the minimizing matrix are treated in [12], [22], and [47].

施密特的近似定理已在多个方向上得到推广。米尔斯基(Mirsky)在 1960 年的文献 [40] 中证明:式 (5.2) 定义的 A k A_k Ak 在任意酉不变范数下均为最优近似矩阵。关于对最优近似矩阵施加额外约束的情形,可参见文献 [12]、[22] 和 [47]。

Given matrices A A A and B B B, the Procrustes problem, which arises in the statistical method of factor analysis, is that of determining a unitary matrix Q Q Q such that ∥ A − B Q ∥ \|A - BQ\| ∥A−BQ∥ is minimized (see [29, 1962]). Green [25, 1952] and Schoneman [51, 1966] showed that if U T A T B V = Σ U^T A^T B V = \Sigma UTATBV=Σ is the singular value decomposition of A T B A^T B ATB then the minimizing matrix is Q = V U T Q = V U^T Q=VUT. Rao [47, 1980] considers the more general problem of minimizing ∥ P A − B Q ∥ \|P A - B Q\| ∥PA−BQ∥, where P P P and Q Q Q are orthogonal.

给定矩阵 A A A 和 B B B,普罗克拉斯提斯(Procrustes)问题源于因子分析这一统计方法,该问题旨在确定一个酉矩阵 Q Q Q,使得 ∥ A − B Q ∥ \|A - BQ\| ∥A−BQ∥ 达到最小(参见文献 [29, 1962])。Green [25, 1952] 和 Schoneman [51, 1966] 证明:若 U T A T B V = Σ U^T A^T B V = \Sigma UTATBV=Σ 是 A T B A^T B ATB 的奇异值分解,则使该范数最小的矩阵为 Q = V U T Q = V U^T Q=VUT。Rao [47, 1980] 则研究了更一般的问题,即最小化 ∥ P A − B Q ∥ \|P A - B Q\| ∥PA−BQ∥,其中 P P P 和 Q Q Q 均为正交矩阵。

Principal components.

主成分

An alternative to factor analysis is the principal component analysis of Hotelling [27, 1933]. Specifically, if x T x^T xT is a random variable with mean zero and common dispersion matrix D D D, and D = V Σ V T D = V \Sigma V^T D=VΣVT is the eigenvalue-eigenvector decomposition of D D D, then the components of x T V x^T V xTV are uncorrelated with variances σ i \sigma_i σi. Hotelling called the transformed variables "the principal components of variance" of x T x^T xT. If the rows of X X X consist of independent copies of x T x^T xT, then the expectation of X T X X^T X XTX is proportional to Σ \Sigma Σ. It follows that the matrix V ^ \hat{V} V^ obtained from the singular value decomposition of X X X is an estimate of V V V.

主成分。因子分析的一种替代方法是 Hotelling [27, 1933] 提出的主成分分析。具体而言,若 x T x^T xT 是一个均值为零、公共散布矩阵为 D D D 的随机变量,且 D = V Σ V T D = V \Sigma V^T D=VΣVT 是 D D D 的特征值 - 特征向量分解,则 x T V x^T V xTV 的各分量互不相关,其方差为 σ i \sigma_i σi。Hotelling 将这些变换后的变量称为 x T x^T xT 的"方差主成分"。若矩阵 X X X 的各行是 x T x^T xT 的独立样本,则 X T X X^T X XTX 的期望与 Σ \Sigma Σ 成比例。由此可推出,通过 X X X 的奇异值分解得到的矩阵 V ^ \hat{V} V^ 是 V V V 的一个估计。

Hotelling [28, 1936] also introduced canonical correlations between two sets of random variables that bear the same relation to the generalized singular value decomposition as his principal components bear to the singular value decomposition.

Hotelling [28, 1936] 还提出了两组随机变量之间的典型相关(canonical correlation)。这种典型相关与广义奇异值分解的关系,等同于其主成分与奇异值分解的关系。

Inequalities involving singular values. Just as Schmidt did not have the last word on approximation theorems, Weyl was not the last to work on inequalities involving singular values. The subject is too voluminous to treat here, and we refer the reader to the excellent survey with references in [26, Chap. 3]. However, mention should be made of a line of research initiated by Weyl [65, 1949] relating the singular values and eigenvalues of a matrix.

涉及奇异值的不等式。正如 Schmidt 并非在逼近定理方面做出最终定论的学者,Weyl 也不是最后一位研究涉及奇异值不等式的学者。该主题内容过于庞杂,无法在此详尽阐述,建议读者参考 [26, 第 3 章] 中包含参考文献的出色综述。不过,值得一提的是 Weyl [65, 1949] 开创的一个研究方向,该方向探讨了矩阵奇异值与特征值之间的关系。

Computational methods. The singular value decomposition was introduced into numerical analysis by Golub and Kahan [23, 1965], who proposed a computational algorithm. However, it was Golub [24, 1970] who gave the algorithm that has been the workhorse of the past two decades. Recently, Demmel and Kahan [13, 1990] have proposed an interesting alternative.

计算方法。Golub 和 Kahan [23, 1965] 将奇异值分解引入数值分析领域,并提出了相应的计算算法。然而,过去二十年里广泛应用的算法是由 Golub [24, 1970] 提出的。最近,Demmel 和 Kahan [13, 1990] 提出了一种颇具新意的替代算法。

Sources. For short bibliographies of the principles see the Dictionary of Scientific Biography [6], and particularly the articles [6], [14], [15], [42], and [56]. The nearest thing to a systematic survey of the development of matrix decompositions is the chapter on determinants and matrices in Kline's Mathematical Thought from Ancient to Modern Times [35, Chap. 33]. Mac Duffee's book, The Theory of Matrices [39], is a gold mine of references to the older literature.

资料来源。关于相关原理的简要参考文献,可参见《科学传记词典》(Dictionary of Scientific Biography)[6],尤其可参考其中的文献 [6]、[14]、[15]、[42] 和 [56]。对矩阵分解发展历程最为系统的综述类文献,当属 Kline 所著《古今数学思想》(Mathematical Thought from Ancient to Modern Times)中关于行列式与矩阵的章节 [35, 第 33 章]。Mac Duffee 的著作《矩阵理论》(The Theory of Matrices)[39] 则是收录早期相关文献的宝库。

Acknowledgments. I would like to thank Anne Greenbaum, Nick Higham, David Wood, and Hongyuan Zha for reading and commenting on the manuscript.

致谢。感谢 Anne Greenbaum、Nick Higham、David Wood 以及 Hongyuan Zha(查宏远)阅读本文手稿并提出宝贵意见。

REFERENCES

参考文献

1\] L. AUTONNE, Sur les groupes linéaires, réels et orthogonaux, Bull. Soc. Math. France, 30 (1902), pp. 121-134. \[1\] L. AUTONNE,《论实正交线性群》(Sur les groupes linéaires, réels et orthogonaux),《法国数学会通报》(Bull. Soc. Math. France),第 30 卷(1902 年),第 121 - 134 页。 \[2\] , Sur les matrices hypohermitiennes et les unitaires, Comptes Rendus de l'Académie Sciences, Paris, 156 (1913), pp. 858-860. \[2\] 同作者(L. AUTONNE),《论次埃尔米特矩阵与酉矩阵》(Sur les matrices hypohermitiennes et les unitaires),《法国科学院院报》(Comptes Rendus de l'Académie Sciences, Paris),第 156 卷(1913 年),第 858 - 860 页。 \[3\] ., Sur les matrices hypohermitiennes et sur les matrices unitaires, Ann. Univ. Lyons, Nouvelle Série I, 38 (1915), pp. 1-77. \[3\] 同作者(L. AUTONNE),《论次埃尔米特矩阵与酉矩阵》(Sur les matrices hypohermitiennes et sur les matrices unitaires),《里昂大学年报》(Ann. Univ. Lyons, Nouvelle Série I),第 38 卷(1915 年),第 1 - 77 页。 \[4\] H. BATEMAN, A formula for the solving function of a certain integral equation of the second kind, Trans. Cambridge Philos. Soc., 20 (1908), pp. 179-187. \[4\] H. BATEMAN,《一类第二类积分方程求解函数的公式》(A formula for the solving function of a certain integral equation of the second kind),《剑桥哲学学会会刊》(Trans. Cambridge Philos. Soc.),第 20 卷(1908 年),第 179 - 187 页。 \[5\] E. BELTRAMI, Sulle funzioni bilineari, Giornale di Matematiche ad Uso degli Studenti Delle Università, 11 (1873), pp. 98-106. An English translation by D. Boley is available as University of Minnesota, Department of Computer Science, Minneapolis, MN, Technical Report 90-37, 1990. \[5\] E. BELTRAMI,《论双线性函数》(Sulle funzioni bilineari),《大学学生用数学期刊》(Giornale di Matematiche ad Uso degli Studenti Delle Università),第 11 卷(1873 年),第 98 - 106 页。D. Boley 已将该文译为英文,可参见美国明尼苏达大学计算机科学系(明尼阿波利斯市,明尼苏达州)1990 年的技术报告 90 - 37。 \[6\] M. BEREKOF, Schmidt, Erhard, in Dictionary of Scientific Biography XII, C. C. Gillispe, ed., Charles Scribner's Sons, New York, 1975. \[6\] M. BEREKOF,《埃哈德·施密特》(Schmidt, Erhard),收录于 C. C. Gillispe 主编的《科学传记词典》(Dictionary of Scientific Biography)第 12 卷,查尔斯·斯克里布纳之子出版社(Charles Scribner's Sons),纽约,1975 年。 \[7\] A.L. CAUCHY, Sur l'équation à l'aide de laquelle on détermine les inégalités séculaires des mouvements des planètes, in Oeuvres Complètes (II Série), Vol. 9, 1829. \[7\] A.L. 柯西(CAUCHY),《论用于确定行星运动长期不等式的方程》(Sur l'équation à l'aide de laquelle on détermine les inégalités séculaires des mouvements des planètes),收录于《柯西全集》(Oeuvres Complètes)第二辑,第 9 卷,1829 年。 \[8\] M. CHU, A differential equation approach to the singular value decomposition of bidiagonal matrices, Linear Algebra Appl., 80 (1986), pp. 71-79. \[8\] M. CHU,《用微分方程方法求解双对角矩阵的奇异值分解》(A differential equation approach to the singular value decomposition of bidiagonal matrices),《线性代数及其应用》(Linear Algebra Appl.),第 80 卷(1986 年),第 71 - 79 页。 \[9\] C. DAVIS AND W. KAHAN, The rotation of eigenvectors by a perturbation. III, SIAM J. Numer. Anal., 7 (1970), pp. 1-46. \[9\] C. DAVIS 与 W. KAHAN,《摄动引起的特征向量旋转(第三部分)》(The rotation of eigenvectors by a perturbation. III),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 7 卷(1970 年),第 1 - 46 页。 \[10\] B. DE MOOR, A tree of generalizations of the ordinary singular value decomposition, Linear Algebra Appl., 147 (1991), pp. 469-500. \[10\] B. DE MOOR,《普通奇异值分解的推广体系》(A tree of generalizations of the ordinary singular value decomposition),《线性代数及其应用》(Linear Algebra Appl.),第 147 卷(1991 年),第 469 - 500 页。 \[11\] P. DEIFT, J. DEMMEL, L.-C. LI, And C. TOMEI, The bidiagonal singular value decomposition and Hamiltonian mechanics, SIAM J. Numer. Anal., 28 (1991), pp. 1463-1516. \[11\] P. DEIFT、J. DEMMEL、L.-C. LI(李)与 C. TOMEI,《双对角矩阵奇异值分解与哈密顿力学》(The bidiagonal singular value decomposition and Hamiltonian mechanics),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 28 卷(1991 年),第 1463 - 1516 页。 \[12\] J. DEMMEL, The smallest perturbation of a submatrix which lowers the rank and constrained total least squares problems, SIAM J. Numer. Anal., 24 (1987), pp. 199-206. \[12\] J. DEMMEL,《使子矩阵秩降低的最小摄动及约束总体最小二乘问题》(The smallest perturbation of a submatrix which lowers the rank and constrained total least squares problems),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 24 卷(1987 年),第 199 - 206 页。 \[13\] J. DEMMEL AND W. KAHAN, Accurate singular values of bidiagonal matrices, SIAM J. Sci. Statist. Comput., 11 (1989), pp. 873-912. \[13\] J. DEMMEL 与 W. KAHAN,《双对角矩阵的精确奇异值》(Accurate singular values of bidiagonal matrices),《美国工业与应用数学学会科学与统计计算期刊》(SIAM J. Sci. Statist. Comput.),第 11 卷(1989 年),第 873 - 912 页。 \[14\] J. DIEUDONNÉ, Jordan, Camille, in Dictionary of Scientific Biography VII, C. C. Gillispe, ed., Charles Scribner's Sons, New York, 1973. \[14\] J. DIEUDONNÉ,《卡米耶·若尔当》(Jordan, Camille),收录于 C. C. Gillispe 主编的《科学传记词典》(Dictionary of Scientific Biography)第 7 卷,查尔斯·斯克里布纳之子出版社(Charles Scribner's Sons),纽约,1973 年。 \[15\] Weyl, Hermann, in Dictionary of Scientific Biography XIV, C. C. Gillispe, ed., Charles Scribner's Sons, New York, 1976. \[15\] 《赫尔曼·外尔》(Weyl, Hermann),收录于 C. C. Gillispe 主编的《科学传记词典》(Dictionary of Scientific Biography)第 14 卷,查尔斯·斯克里布纳之子出版社(Charles Scribner's Sons),纽约,1976 年。 \[16\] C. ECKART AND G. YOUNG, The approximation of one matrix by another of lower rank, Psychometrika, 1 (1936), pp. 211-218. \[16\] C. ECKART 与 G. YOUNG,《用低秩矩阵逼近给定矩阵》(The approximation of one matrix by another of lower rank),《心理测量学》(Psychometrika),第 1 卷(1936 年),第 211 - 218 页。 \[17\] ., A principal axis transformation for non-Hermitian matrices, Bull. Amer. Math. Soc., 45 (1939), pp. 118-121. \[17\] 同作者(C. ECKART 与 G. YOUNG),《非埃尔米特矩阵的主轴变换》(A principal axis transformation for non-Hermitian matrices),《美国数学会通报》(Bull. Amer. Math. Soc.),第 45 卷(1939 年),第 118 - 121 页。 \[18\] K. FAN AND A. J. HOFFMAN, Some metric inequalities in the space of matrices, Proc. Amer. Math. Soc., 6 (1955), pp. 111-116. \[18\] K. FAN(樊畿)与 A. J. HOFFMAN,《矩阵空间中的若干度量不等式》(Some metric inequalities in the space of matrices),《美国数学会会议录》(Proc. Amer. Math. Soc.),第 6 卷(1955 年),第 111 - 116 页。 \[19\] C. F. GAUSS, Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium, Perthes and Besser, Hamburg, Germany, 1809. \[19\] C. F. 高斯(GAUSS),《天体在圆锥截面上绕太阳运动的理论》(Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium),珀特斯与贝瑟出版社(Perthes and Besser),德国汉堡,1809 年。 \[20\] Theoria combinationis observationum erroribus minimis obnoxiae, pars posterior, in Werke, IV, Königlichen Gesellschaft der Wissenschaften zu Göttingen (1880), 1823, pp. 27-53. \[20\] 《关于以最小误差组合观测值的理论(续篇)》(Theoria combinationis observationum erroribus minimis obnoxiae, pars posterior),收录于《高斯全集》(Werke)第 4 卷,哥廷根皇家科学学会(Königlichen Gesellschaft der Wissenschaften zu Göttingen),1880 年(原文发表于 1823 年),第 27 - 53 页。 \[21\] I. C. GOHBERG AND M. G. KREIN, Introduction to the Theory of Linear Nonselfadjoint Operators, American Mathematical Society, Providence, RI, 1969. \[21\] I. C. 戈贝尔格(GOHBERG)与 M. G. 克列因(KREIN),《线性非自伴算子理论导论》(Introduction to the Theory of Linear Nonselfadjoint Operators),美国数学会(American Mathematical Society),罗得岛州普罗维登斯,1969 年。 \[22\] G.H. GOLUB, A. HOFFMAN, AND G. W. STEWART, A generalization ofthe Eckart-Young matrix approximation theorem, Linear Algebra Appl., 88/89 (1987), pp. 317-327. \[22\] G.H. GOLUB、A. HOFFMAN 与 G. W. STEWART(斯图尔特),《埃卡特 - 杨矩阵逼近定理的推广》(A generalization of the Eckart-Young matrix approximation theorem),《线性代数及其应用》(Linear Algebra Appl.),第 88/89 卷(1987 年),第 317 - 327 页。 \[23\] G.H. GOLUB AND W. KAHAN, Calculating the singular values and pseudo-inverse of a matrix, SIAM J. Numer. Anal., 2 (1965), pp. 205-224. \[23\] G.H. GOLUB 与 W. KAHAN,《矩阵奇异值与伪逆的计算》(Calculating the singular values and pseudo-inverse of a matrix),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 2 卷(1965 年),第 205 - 224 页。 \[24\] G. H. GOLUB AND C. REINSCH, Singular value decomposition and least squares solution, Numer. Math., 14 (1970), pp. 403-420; also in \[66, pp.134-151\]. \[24\] G. H. GOLUB 与 C. REINSCH,《奇异值分解与最小二乘解》(Singular value decomposition and least squares solution),《数值数学》(Numer. Math.),第 14 卷(1970 年),第 403 - 420 页;该文亦收录于文献 \[66, 第 134 - 151 页\]。 \[25\] B. F. GREEN, The orthogonal approximation of the oblique structure in factor analysis, Psychometrika, 17 (1952), pp. 429-440. \[25\] B. F. GREEN,《因子分析中斜交结构的正交逼近》(The orthogonal approximation of the oblique structure in factor analysis),《心理测量学》(Psychometrika),第 17 卷(1952 年),第 429 - 440 页。 \[26\] R. A. HORN AND C. R. JOHNSON, Topics in Matrix Analysis, Cambridge University Press, Cambridge, UK, 1991. \[26\] R. A. HORN 与 C. R. JOHNSON,《矩阵分析专题》(Topics in Matrix Analysis),剑桥大学出版社(Cambridge University Press),英国剑桥,1991 年。 \[27\] H. HOTELLING, Analysis of a complex of statistical variables into principal components, J. Ed. Psych., 24 (1933), pp. 417-441 and 498-520. \[27\] H. HOTELLING,《将一组复杂统计变量分解为主成分》(Analysis of a complex of statistical variables into principal components),《教育心理学杂志》(J. Ed. Psych.),第 24 卷(1933 年),第 417 - 441 页及第 498 - 520 页。 \[28\] Relation between two sets of variates, Biometrika, 28 (1936), pp. 322-377. \[28\] 同作者(H. HOTELLING),《两组变量间的关系》(Relation between two sets of variates),《生物计量学》(Biometrika),第 28 卷(1936 年),第 322 - 377 页。 \[29\] J. R. HURLEY AND R. B. CATTELL, The Procrustes program: Direct rotation to test a hypothesized factor structure, Behav. Sci., 7 (1962), pp. 258-262. \[29\] J. R. HURLEY 与 R. B. CATTELL,《普罗克拉斯提斯程序:用于检验假设因子结构的直接旋转法》(The Procrustes program: Direct rotation to test a hypothesized factor structure),《行为科学》(Behav. Sci.),第 7 卷(1962 年),第 258 - 262 页。 \[30\] C.G.J. JACOBI, Über ein leichtes Verfahren die in der Theorie der Seculärstörungen vorkommenden Gleichungen numerisch aufzulösen, J. Reine Angew. Math., 30 (1846), pp. 51-94. \[30\] C.G.J. 雅可比(JACOBI),《一种求解长期摄动理论中出现的方程的简便数值方法》(Über ein leichtes Verfahren die in der Theorie der Seculärstörungen vorkommenden Gleichungen numerisch aufzulösen),《纯粹与应用数学杂志》(J. Reine Angew. Math.),第 30 卷(1846 年),第 51 - 94 页。 \[31\] Über eine elementare Transformation eines in Bezug jedes von zwei Variablen-Systemen linearen und homogenen Ausdrucks, J. Reine Angew. Math., 53 (1857, posthumous), pp. 265-270. \[31\] 同作者(C.G.J. 雅可比),《关于对两个变量系统均为线性齐次的表达式的初等变换》(Über eine elementare Transformation eines in Bezug jedes von zwei Variablen-Systemen linearen und homogenen Ausdrucks),《纯粹与应用数学杂志》(J. Reine Angew. Math.),第 53 卷(1857 年,遗作),第 265 - 270 页。 \[32\] C. JORDAN, Mémoire sur les formes bilinéaires, J. Math. Pures Appl., Deuxième Série, 19 (1874), pp. 35-54. \[32\] C. JORDAN(若尔当),《关于双线性形式的论文》(Mémoire sur les formes bilinéaires),《纯粹与应用数学杂志》(J. Math. Pures Appl.),第二辑,第 19 卷(1874 年),第 35 - 54 页。 \[33\] Sur la réduction des formes bilinéaires, Comptes Rendus de l'Académie Sciences, Paris, 78 (1874), pp. 614-617. \[33\] 同作者(C. JORDAN),《论双线性形式的约化》(Sur la réduction des formes bilinéaires),《法国科学院院报》(Comptes Rendus de l'Académie Sciences, Paris),第 78 卷(1874 年),第 614 - 617 页。 \[34\] Essai sur la géométrie à n dimensions, Bull. Soc. Math., 3 (1875), pp. 103-174. \[34\] 同作者(C. JORDAN),《n 维几何学初探》(Essai sur la géométrie à n dimensions),《数学会通报》(Bull. Soc. Math.),第 3 卷(1875 年),第 103 - 174 页。 \[35\] M. KLINE, Mathematical Thought from Ancient to Modern Times, Oxford University Press, New York, 1972. \[35\] M. KLINE(克莱因),《古今数学思想》(Mathematical Thought from Ancient to Modern Times),牛津大学出版社(Oxford University Press),纽约,1972 年。 \[36\] E.G. KOGANOVICH, Solution of linear systems by diagonalization of coefficients matrix, Quart. Appl. Math., 13 (1955), pp. 123-132. \[36\] E.G. KOGANOVICH,《通过系数矩阵对角化求解线性方程组》(Solution of linear systems by diagonalization of coefficients matrix),《应用数学季刊》(Quart. Appl. Math.),第 13 卷(1955 年),第 123 - 132 页。 \[37\] L. KRONECKER, Über bilineare Formen, Sitzungberichte der Königlich Preußischen Akademie der Wissenschaften zu Berlin, (1866), pp. 597-613. \[37\] L. KRONECKER(克罗内克),《论双线性形式》(Über bilineare Formen),《柏林皇家普鲁士科学院会议报告》(Sitzungberichte der Königlich Preußischen Akademie der Wissenschaften zu Berlin),1866 年,第 597 - 613 页。 \[38\] C. LANCZOS, Linear systems in self-adjoint form, Amer. Math. Monthly, 65 (1958), pp. 665-679. \[38\] C. LANCZOS(兰佐斯),《自伴形式的线性方程组》(Linear systems in self-adjoint form),《美国数学月刊》(Amer. Math. Monthly),第 65 卷(1958 年),第 665 - 679 页。 \[39\] C.C. MAC DUFFEE, The Theory of Matrices, Chelsea, New York, 1946. \[39\] C.C. MAC DUFFEE,《矩阵理论》(The Theory of Matrices),切尔西出版社(Chelsea),纽约,1946 年。 \[40\] L. MIRSKY, Symmetric gauge functions and unitarily invariant norms, Quart. J. Math., 11 (1960), pp. 50-59. \[40\] L. MIRSKY,《对称规范函数与酉不变范数》(Symmetric gauge functions and unitarily invariant norms),《数学季刊》(Quart. J. Math.),第 11 卷(1960 年),第 50 - 59 页。 \[41\] E.H. MOORE, On the reciprocal of the general algebraic matrix, Bull. Amer. Math. Soc., 26 (1920), pp. 394-395. \[41\] E.H. MOORE(穆尔),《关于一般代数矩阵的逆》(On the reciprocal of the general algebraic matrix),《美国数学会通报》(Bull. Amer. Math. Soc.),第 26 卷(1920 年),第 394 - 395 页。 \[42\] J.D. NORTH, Sylvester, James Joseph, in Dictionary of Scientific Biography XIII, C. C. Gillispe, ed., Charles Scribner's Sons, New York, 1976. \[42\] J.D. NORTH,《詹姆斯·约瑟夫·西尔维斯特》(Sylvester, James Joseph),收录于 C. C. Gillispe 主编的《科学传记词典》(Dictionary of Scientific Biography)第 13 卷,查尔斯·斯克里布纳之子出版社(Charles Scribner's Sons),纽约,1976 年。 \[43\] C.C. PAIGE AND M. A. SAUNDERS, Toward a generalized singular value decomposition, SIAM J. Numer. Anal., 18 (1981), pp. 398-405. \[43\] C.C. PAIGE 与 M. A. SAUNDERS,《广义奇异值分解的研究》(Toward a generalized singular value decomposition),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 18 卷(1981 年),第 398 - 405 页。 \[44\] R. PENROSE, A generalized inverse for matrices, Proc. Cambridge Philos. Soc., 51 (1955), pp. 406-413. \[44\] R. PENROSE(彭罗斯),《矩阵的广义逆》(A generalized inverse for matrices),《剑桥哲学学会会刊》(Proc. Cambridge Philos. Soc.),第 51 卷(1955 年),第 406 - 413 页。 \[45\] E. PICARD, Quelques remarques sur les équations intégrales de première espèce et sur certains problèmes de Physique mathématique, Comptes Rendus de l'Académie Sciences, Paris, 148 (1909), pp. 1563-1568. \[45\] E. PICARD(皮卡),《关于第一类积分方程及若干数学物理问题的几点注记》(Quelques remarques sur les équations intégrales de première espèce et sur certains problèmes de Physique mathématique),《法国科学院院报》(Comptes Rendus de l'Académie Sciences, Paris),第 148 卷(1909 年),第 1563 - 1568 页。 \[46\] ., Sur un théorème général relatif aux équations intégrales de première espèce et sur quelques problèmes de physique mathématique, Rend. Circ. Mat. Palermo, 25 (1910), pp. 79-97. \[46\] 同作者(E. PICARD),《关于第一类积分方程的一个一般定理及若干数学物理问题》(Sur un théorème général relatif aux équations intégrales de première espèce et sur quelques problèmes de physique mathématique),《帕勒莫数学通讯》(Rend. Circ. Mat. Palermo),第 25 卷(1910 年),第 79 - 97 页。 \[47\] C. R. RAO, Matrix approximations and reduction of dimensionality in multivariate statistical analysis, in Multivariate Analysis, V, P. R. Krishnaiah, ed., North Holland, Amsterdam, 1980. \[47\] C. R. RAO(罗),《多元统计分析中的矩阵逼近与降维》(Matrix approximations and reduction of dimensionality in multivariate statistical analysis),收录于 P. R. Krishnaiah 主编的《多元分析(第五卷)》(Multivariate Analysis, V),北荷兰出版社(North Holland),阿姆斯特丹,1980 年。 \[48\] F. RIESZ, Über orthogonale Funktionenensystem, Göttinger Nachr., (1907), pp. 116-122. Cited in \[49\]. \[48\] F. RIESZ(里斯),《论正交函数系》(Über orthogonale Funktionenensystem),《哥廷根通讯》(Göttinger Nachr.),1907 年,第 116 - 122 页。该文献被文献 \[49\] 引用。 \[49\] F. RIESZ AND B. SZ.-NAGY, L. F. Boron, trans., Functional Analysis, Ungar, New York, 1955. \[49\] F. RIESZ 与 B. SZ.-NAGY,《泛函分析》(Functional Analysis),L. F. Boron 译,昂加尔出版社(Ungar),纽约,1955 年。 \[50\] E. SCHMIDT, Zur Theorie der linearen und nichtlinearen Integralgleichungen. I Teil. Entwicklung willkürlichen Funktionen nach System vorgeschriebener, Math. Ann., 63 (1907), pp. 433-476. \[50\] E. SCHMIDT(施密特),《线性与非线性积分方程理论(第一部分):任意函数按给定函数系的展开》(Zur Theorie der linearen und nichtlinearen Integralgleichungen. I Teil. Entwicklung willkürlichen Funktionen nach System vorgeschriebener),《数学年刊》(Math. Ann.),第 63 卷(1907 年),第 433 - 476 页。 \[51\] E. H. SCHONEMAN, A generalized solution of the orthogonal Procrustes problem, Psychometrika, 31 (1966), pp. 1-10. \[51\] E. H. SCHONEMAN,《正交普罗克拉斯提斯问题的广义解》(A generalized solution of the orthogonal Procrustes problem),《心理测量学》(Psychometrika),第 31 卷(1966 年),第 1 - 10 页。 \[52\] J. SCHUR, Über Potenzreihen, die im Innern des Einheitskreise beschränkt sind, J. Angew. Math., 147 (1917), pp. 205-232. \[52\] J. SCHUR(舒尔),《论单位圆内有界的幂级数》(Über Potenzreihen, die im Innern des Einheitskreise beschränkt sind),《纯粹与应用数学杂志》(J. Angew. Math.),第 147 卷(1917 年),第 205 - 232 页。 \[53\] F. SMITHIES, The eigen-values and singular values of integral equations, Proc. London Math. Soc., 43 (1937), pp. 255-279. \[53\] F. SMITHIES,《积分方程的特征值与奇异值》(The eigen-values and singular values of integral equations),《伦敦数学学会会议录》(Proc. London Math. Soc.),第 43 卷(1937 年),第 255 - 279 页。 \[54\] G.W. STEWART, On the perturbation of pseudo-inverses, projections, and linear least squares problems, SIAM Rev., 19 (1977), pp. 634-662. \[54\] G.W. STEWART(斯图尔特),《伪逆、投影及线性最小二乘问题的摄动分析》(On the perturbation of pseudo-inverses, projections, and linear least squares problems),《美国工业与应用数学学会评论》(SIAM Rev.),第 19 卷(1977 年),第 634 - 662 页。 \[55\] G.W. STEWART AND J.-G. SUN, Matrix Perturbation Theory, Academic Press, Boston, MA, 1990. \[55\] G.W. STEWART(斯图尔特)与 J.-G. SUN(孙继广),《矩阵摄动理论》(Matrix Perturbation Theory),学术出版社(Academic Press),马萨诸塞州波士顿,1990 年。 \[56\] D.J. STRUIK, Beltrami, Eugenio, in Dictionary of Scientific Biography I, C. C. Gillispe, ed., Charles Scribner's Sons, New York, 1970. \[56\] D.J. STRUIK,《欧金尼奥·贝尔特拉米》(Beltrami, Eugenio),收录于 C. C. Gillispe 主编的《科学传记词典》(Dictionary of Scientific Biography)第 1 卷,查尔斯·斯克里布纳之子出版社(Charles Scribner's Sons),纽约,1970 年。 \[57\] J. J. SYLVESTER, A new proof that a general quadric may be reduced to its canonical form (that is, a linear function of squares) by means of a real orthogonal substitution, Messenger of Mathematics, 19 (1889), pp. 1-5. \[57\] J. J. SYLVESTER(西尔维斯特),《关于一般二次型可通过实正交变换化为标准形(即平方的线性组合)的新证明》(A new proof that a general quadric may be reduced to its canonical form (that is, a linear function of squares) by means of a real orthogonal substitution),《数学通讯》(Messenger of Mathematics),第 19 卷(1889 年),第 1 - 5 页。 \[58\] , On the reduction of a bilinear quantic of the nth order to the form of a sum of n products by a double orthogonal substitution, Messenger of Mathematics, 19 (1889), pp. 42-46. \[58\] 同作者(J. J. SYLVESTER),《关于通过双重正交变换将 n 次双线性型化为 n 个乘积和形式的研究》(On the reduction of a bilinear quantic of the nth order to the form of a sum of n products by a double orthogonal substitution),《数学通讯》(Messenger of Mathematics),第 19 卷(1889 年),第 42 - 46 页。 \[59\] Sur la réduction biorthogonale d'une forme lino-linaire à sa forme cannonique, Comptes Rendus de l'Académie Sciences, Paris, 108 (1889), pp. 651-653. \[59\] 同作者(J. J. SYLVESTER),《论线性形式的双正交约化及其标准形》(Sur la réduction biorthogonale d'une forme lino-linaire à sa forme cannonique),《法国科学院院报》(Comptes Rendus de l'Académie Sciences, Paris),第 108 卷(1889 年),第 651 - 653 页。 \[60\] C.F. VAN LOAN, A general matrix eigenvalue algorithm, SIAM J. Numer. Anal., 12 (1975), pp. 819-834. \[60\] C.F. VAN LOAN,《一种通用的矩阵特征值算法》(A general matrix eigenvalue algorithm),《美国工业与应用数学学会数值分析期刊》(SIAM J. Numer. Anal.),第 12 卷(1975 年),第 819 - 834 页。 \[61\] J. VON NEUMANN, Some matrix-inequalities and metrization of matrix-space, Tomsk. Univ. Rev., (1937), pp. 286-300. \[61\] J. VON NEUMANN(冯·诺依曼),《若干矩阵不等式及矩阵空间的度量化》(Some matrix-inequalities and metrization of matrix-space),《托木斯克大学评论》(Tomsk. Univ. Rev.),1937 年,第 286 - 300 页。 \[62\] , Collected Works, A. H. Taub, ed., Pergamon, New York, 1962. \[62\] 同作者(J. VON NEUMANN),《冯·诺依曼全集》(Collected Works),A. H. Taub 主编, Pergamon 出版社,纽约,1962 年。 \[63\] K. WEIERSTRASS, Zur Theorie der bilinearen und quadratischen Formen, Monatshefte Akademie Wissenschaften Berlin, (1868), pp. 310-338. \[63\] K. WEIERSTRASS(魏尔斯特拉斯),《论双线性形式与二次形式的理论》(Zur Theorie der bilinearen und quadratischen Formen),《柏林科学院月刊》(Monatshefte Akademie Wissenschaften Berlin),1868 年,第 310 - 338 页。 \[64\] H. WEYL, Das asymptotische Verteilungsgesetz der Eigenwert linearer partieller Differentialgleichungen (mit einer Anwendung auf der Theorie der Hohlraumstrahlung), Math. Ann., 71 (1912), pp. 441-479. \[64\] H. WEYL(外尔),《线性偏微分方程特征值的渐近分布律(及其在空腔辐射理论中的应用)》(Das asymptotische Verteilungsgesetz der Eigenwert linearer partieller Differentialgleichungen (mit einer Anwendung auf der Theorie der Hohlraumstrahlung)),《数学年刊》(Math. Ann.),第 71 卷(1912 年),第 441 - 479 页。 \[65\] Inequalities between the two kinds of eigenvalues of a linear transformation, Proc. Nat. Acad. Sci., 35 (1949), pp. 408-411. \[65\] 同作者(H. WEYL),《线性变换的两类特征值之间的不等式》(Inequalities between the two kinds of eigenvalues of a linear transformation),《美国国家科学院院刊》(Proc. Nat. Acad. Sci.),第 35 卷(1949 年),第 408 - 411 页。 \[66\] J.H. WILKINSON AND C. REINSCH, Handbook for Automatic Computation, Vol. II Linear Algebra, Springer-Verlag, New York, 1971. \[66\] J.H. WILKINSON 与 C. REINSCH,《自动计算手册(第二卷:线性代数)》(Handbook for Automatic Computation, Vol. II Linear Algebra),施普林格出版社(Springer-Verlag),纽约,1971 年。 *** ** * ** *** ## 奇异值分解(SVD)早期建立与发展中的数学家贡献 本文基于 G. W. Stewart 发表于 1993 年《SIAM REVIEW》的论文,系统梳理五位关键数学家及后续研究者在奇异值分解(SVD)早期理论建立与发展中的重要贡献,同时补充奇异值分解延伸发展脉络、术语演变背景及学科交叉关联发展全景,系统地阐述奇异值分解从理论萌芽到成为实用工具的演进历程。 ### 一、关键数学家的直接贡献 #### 1. 欧金尼奥·贝尔特拉米(Eugenio Beltrami,1835-1899)------SVD 的首次公开发表者 贝尔特拉米在 1873 年的论文中,以**双线性形式**为切入点,首次公开推导实方阵的奇异值分解,成为 SVD 理论的"奠基人之一"。其研究最初发表于意大利大学学生用数学期刊,旨在简化内容帮助学生理解双线性形式,因此部分复杂细节存在省略。 * **推导逻辑**: 1. 从双线性形式 f ( x , y ) = x T A y f(x, y) = x\^T A y f(x,y)=xTAy 出发,假设正交变换 x = U ξ x = U \\xi x=Uξ 和 y = V η y = V \\eta y=Vη,目标是将双线性形式转化为对角形式 ξ T Σ η \\xi\^T \\Sigma \\eta ξTΣη(其中 Σ = U T A V \\Sigma = U\^T A V Σ=UTAV 为对角矩阵)。 2. 通过正交性推导关键关系:由 U T A = Σ V T U\^T A = \\Sigma V\^T UTA=ΣVT 和 A V = U Σ A V = U \\Sigma AV=UΣ,进一步推导出 U T ( A A T ) = Σ 2 U T U\^T (A A\^T) = \\Sigma\^2 U\^T UT(AAT)=Σ2UT 和 ( A T A ) V = V Σ 2 (A\^T A) V = V \\Sigma\^2 (ATA)V=VΣ2,明确证明奇异值的平方 σ i 2 \\sigma_i\^2 σi2 是 A A T A A\^T AAT 和 A T A A\^T A ATA 的特征值。 3. 验证奇异值的正定性:借助二次型理论,通过 0 \< ∥ A x ∥ 2 = x T ( A A T ) x = ξ T Σ 2 ξ 0 \< \\\|A x\\\|\^2 = x\^T (A A\^T) x = \\xi\^T \\Sigma\^2 \\xi 0\<∥Ax∥2=xT(AAT)x=ξTΣ2ξ,严谨证明 σ i 2 \> 0 \\sigma_i\^2 \> 0 σi2\>0。 * **局限性** :推导仅适用于**非奇异、奇异值互异的实方阵** ,未处理退化情况(如奇异矩阵、重奇异值);论证中存在逻辑跳跃,例如默认特征向量(eigenvector) ξ \\xi ξ 的存在性,未作额外证明。 * **影响**:首次搭建 SVD 理论框架,为后续研究者提供了基础推导思路与方向。 #### 2. 卡米尔·若尔当(Camille Jordan,1838-1921)------SVD 的严谨化与方法创新 若尔当在 1874 年独立发表研究(虽晚于贝尔特拉米,但工作无关联),以**变分法与归纳法**为工具,大幅完善 SVD 的理论严谨性,被视为 SVD 的"共同发现者"。 * **主要贡献**: 1. 变分法定义奇异值:通过最大化双线性形式 P = x T A y P = x\^T A y P=xTAy 在约束条件 ∥ x ∥ 2 = ∥ y ∥ 2 = 1 \\\|x\\\|\^2 = \\\|y\\\|\^2 = 1 ∥x∥2=∥y∥2=1 下的极值,推导出 A y = σ x A y = \\sigma x Ay=σx 和 x T A = σ y T x\^T A = \\sigma y\^T xTA=σyT,明确证明极值 σ \\sigma σ 即为奇异值,为奇异值赋予直观的几何与代数意义。 2. 归纳法(压缩法)处理退化:首创"部分解降维"策略------先找到最大奇异值对应的正交向量对,将矩阵维度逐步降低,最终得到完整 SVD 分解。该方法首次解决贝尔特拉米未覆盖的退化问题(如重奇异值、奇异矩阵)。 3. 关键矩阵与变分性质:引入分块矩阵 ( − σ I A A T − σ I ) \\begin{pmatrix} -\\sigma I \& A \\\\ A\^T \& -\\sigma I \\end{pmatrix} (−σIATA−σI),通过其行列式为零的条件确定奇异值;同时建立"最大奇异值是双线性形式极值"的变分刻画,为后续奇异值扰动理论奠定基础。 * **影响**:其提出的压缩法(deflation)在 1917 年被 Schur 用于证明矩阵三角化定理,成为线性代数中的经典工具;引入的分块矩阵也在 1958 年被 Wielandt 和 Lanczos 重新发掘,应用于现代 SVD 数值计算。 #### 3. 詹姆斯·约瑟夫·西尔维斯特(James Joseph Sylvester,1814-1897)------算法拓展与工程化尝试 西尔维斯特在 1889 年通过论文与注释,从**二次型对角化**出发,首次尝试将 SVD 从"理论推导"转向"可计算算法",推动 SVD 的"算法化"进程,虽未突破前人理论框架,但为实用化奠定思路。 * **主要贡献**: 1. 基于二次型的 SVD 规则:定义二次型 M = ∑ i ( d B d y i ) 2 = x T A A T x M = \\sum_i \\left( \\frac{d B}{d y_i} \\right)\^2 = x\^T A A\^T x M=∑i(dyidB)2=xTAATx(其中 B = x T A y B = x\^T A y B=xTAy 为双线性形式),明确指出 M M M 的特征值即为奇异值的平方 σ i 2 \\sigma_i\^2 σi2;同时提出正交变换 U U U(对应 x x x)和 V V V(对应 y y y)分别是 A A T A A\^T AAT 和 A T A A\^T A ATA 的特征向量矩阵(但仅适用于奇异值互异情况)。 2. 微小迭代法(Infinitesimal Iteration):提出通过无穷多个"微小正交变换"逐步消除矩阵非对角元。以 3 阶矩阵为例,通过引入微小参数 ϵ , η , θ \\epsilon, \\eta, \\theta ϵ,η,θ 构建正交矩阵,迭代减少非对角元 f , g f, g f,g 的平方和,最终实现对角化,是早期迭代算法的重要尝试。 * **局限性**: * 算法未严格证明收敛性,且忽略高阶小项可能导致无法完全对角化; * 写作风格晦涩,逻辑不严谨(如大量省略证明细节),且未参考 Jacobi(1846)已有的二次型对角化算法,存在重复劳动; * 适用范围有限,仅能处理奇异值互异的矩阵,无法应对重奇异值。 * **影响**:首次将 SVD 与"可计算性"结合,其迭代思想后续被 Kogbetliantz 推广为现代 SVD 的 Jacobi 型算法,是 SVD 工程化的重要起点。 #### 4. 埃哈德·施密特(Erhard Schmidt,1876-1959)------无穷维推广与最优逼近理论 施密特在 1907 年从**积分方程**(函数空间)出发,突破有限维矩阵的限制,将 SVD 推广到无穷维,并建立 SVD 的"最优低秩逼近"理论,彻底改变 SVD 的应用价值,使其从"理论好奇"转变为"实用工具"。 * **主要贡献**: 1. 无穷维 SVD(积分方程版本): * 对非对称积分核 A ( s , t ) A(s, t) A(s,t),定义"伴随特征函数对" ( u ( s ) , v ( s ) ) (u(s), v(s)) (u(s),v(s)),满足 u ( s ) = λ ∫ A ( s , t ) v ( t ) d t u(s) = \\lambda \\int A(s, t) v(t) dt u(s)=λ∫A(s,t)v(t)dt 和 v ( t ) = λ ∫ A ( s , t ) u ( s ) d s v(t) = \\lambda \\int A(s, t) u(s) ds v(t)=λ∫A(s,t)u(s)ds; * 通过对称积分核 A ‾ ( s , t ) = ∫ A ( r , s ) A ( r , t ) d r \\underline{A}(s, t) = \\int A(r, s) A(r, t) dr A(s,t)=∫A(r,s)A(r,t)dr 和 A ‾ ( s , t ) = ∫ A ( s , r ) A ( t , r ) d r \\overline{A}(s, t) = \\int A(s, r) A(t, r) dr A(s,t)=∫A(s,r)A(t,r)dr,证明 u ( s ) u(s) u(s) 和 v ( s ) v(s) v(s) 分别是 A ‾ \\underline{A} A 和 A ‾ \\overline{A} A 的特征函数,且积分核可展开为 A ( s , t ) = ∑ i 1 λ i u i ( s ) v i ( t ) A(s, t) = \\sum_i \\frac{1}{\\lambda_i} u_i(s) v_i(t) A(s,t)=∑iλi1ui(s)vi(t)(对应有限维 SVD 形式 A = U Σ V T A = U \\Sigma V\^T A=UΣVT)。 2. 最优低秩逼近定理(SVD 应用奠基性定理): * 问题:寻找秩不超过 k k k 的矩阵 A k A_k Ak,使得 ∥ A − A k ∥ \\\|A - A_k\\\| ∥A−Ak∥(Frobenius 范数)最小; * 证明:若 A k = ∑ i = 1 k σ i u i v i T A_k = \\sum_{i=1}\^k \\sigma_i u_i v_i\^T Ak=∑i=1kσiuiviT(取前 k k k 个最大奇异值对应的项),则 ∥ A − A k ∥ 2 = ∥ A ∥ 2 − ∑ i = 1 k σ i 2 \\\|A - A_k\\\|\^2 = \\\|A\\\|\^2 - \\sum_{i=1}\^k \\sigma_i\^2 ∥A−Ak∥2=∥A∥2−∑i=1kσi2,且该值是所有秩 ≤ k \\leq k ≤k 矩阵中的最小值。 * **突破**:首次将 SVD 从有限维矩阵拓展到无穷维函数空间,为泛函分析提供关键工具;最优逼近定理直接成为数据压缩、降维(如 PCA)的理论基础,是 SVD 应用价值爆发的转折点。 #### 5. 赫尔曼·外尔(Hermann Weyl,1885-1955)------扰动理论与严谨化证明 外尔在 1912 年从**对称积分方程**出发,建立 SVD 的"奇异值扰动理论",并简化施密特最优逼近定理的证明,解决 SVD 理论的"稳定性"问题,标志着 SVD 理论的"成熟化"。 * **主要贡献**: 1. 奇异值扰动引理:若 B k B_k Bk 是秩 ≤ k \\leq k ≤k 的矩阵,则 σ k + 1 ( A ) ≤ σ 1 ( A − B k ) \\sigma_{k+1}(A) \\leq \\sigma_1(A - B_k) σk+1(A)≤σ1(A−Bk)( σ i ( ⋅ ) \\sigma_i(\\cdot) σi(⋅) 表示第 i i i 个奇异值),即"低秩矩阵对 A A A 的逼近误差,其最大奇异值不小于 A A A 的第 k + 1 k+1 k+1 个奇异值",为逼近误差提供量化边界。 2. 奇异值不等式(Weyl 不等式):对于按降序排列的奇异值,若 A = A ′ + A ′ ′ A = A' + A'' A=A′+A′′,则 σ i + j − 1 ( A ) ≤ σ i ( A ′ ) + σ j ( A ′ ′ ) \\sigma_{i+j-1}(A) \\leq \\sigma_i(A') + \\sigma_j(A'') σi+j−1(A)≤σi(A′)+σj(A′′)。该不等式是奇异值扰动分析的重要工具,可直接推导两大结论: * 最优逼近定理简化证明:取 A ′ = A − B k A' = A - B_k A′=A−Bk、 A ′ ′ = B k A'' = B_k A′′=Bk(秩 ≤ k \\leq k ≤k),则 σ k + i ( A ) ≤ σ i ( A − B k ) \\sigma_{k+i}(A) \\leq \\sigma_i(A - B_k) σk+i(A)≤σi(A−Bk),进而 ∥ A − B k ∥ 2 ≥ ∑ i = k + 1 n σ i 2 \\\|A - B_k\\\|\^2 \\geq \\sum_{i=k+1}\^n \\sigma_i\^2 ∥A−Bk∥2≥∑i=k+1nσi2,严谨证明 A k A_k Ak 是最优逼近; * 奇异值稳定性:若 A \~ = A + E \\tilde{A} = A + E A\~=A+E( E E E 为扰动矩阵),则 ∣ σ \~ i − σ i ∣ ≤ ∥ E ∥ 2 \|\\tilde{\\sigma}_i - \\sigma_i\| \\leq \\\|E\\\|_2 ∣σ\~i−σi∣≤∥E∥2( ∥ E ∥ 2 \\\|E\\\|_2 ∥E∥2 为谱范数),明确奇异值对扰动具有稳定性,解决数值计算中的可靠性问题。 * **影响**:扰动理论为后续 SVD 数值算法(如 Golub-Kahan 算法)提供理论保障;其不等式框架至今仍是矩阵分析的重要工具,奠定 SVD 在数值计算中的可靠地位。 ### 二、后续延伸发展与关键研究者 在贝尔特拉米、若尔当等五位数学家奠定实方阵 SVD 理论基础后,后续研究者围绕\*\*"范围拓展""数值计算""关联理论"\*\* 三大方向推进实用化,彻底突破早期理论的局限,扩大其应用边界。 #### 1. 复数与矩形矩阵推广:突破维度与数域限制 早期 SVD 仅适用于实方阵,此阶段的突破是将其推广至更广泛的矩阵类型,为跨场景应用奠定基础: * **阿尔芒·奥托内(Armand Autonne)** :1913 年首次将 SVD 推广到**复矩阵** ,引入酉矩阵(unitary matrix)替代实矩阵场景下的正交矩阵,推导出复矩阵 SVD 的标准形式 A = U Σ V H A = U \\Sigma V\^H A=UΣVH(其中 V H V\^H VH 表示 V V V 的共轭转置),填补了复数域矩阵分解的空白;1902-1915 年期间,还通过 SVD 推导矩阵的**极分解(polar decomposition)**,进一步丰富了矩阵分解的理论体系。 * **卡尔·埃卡特(Carl Eckart)与加勒特·杨(Garrett Young)** :1936-1939 年合作将 SVD 推广到**矩形矩阵** (彻底突破方阵限制),并重新发现了施密特(Erhard Schmidt)于 1907 年提出的**最优低秩逼近定理**------该定理因两人的系统性推广,后续常被误称为"Eckart-Young 定理",至此 SVD 可覆盖实/复、方/非方全类型矩阵。 #### 2. 数值算法与工程应用:从理论到实用工具 20 世纪中叶计算机技术兴起后,SVD 的需求从"理论完善"转向"可计算性",此阶段研究者解决了大规模矩阵的高效计算问题,推动其落地工程领域: * **吉恩·戈卢布(Gene Golub)** :SVD"数值化"的关键推动者。1965 年与 W. Kahan 合作提出首个**实用 SVD 数值算法(Golub-Kahan 算法)**,首次实现大规模矩阵 SVD 的稳定计算;1970 年又与 C. Reinsch 对算法进行优化,形成\*\*"Golub-Reinsch 算法"\*\*,该算法成为 1970-1990 年学界与工业界计算 SVD 的标准方法,直接推动 SVD 在工程、物理等领域的实际应用。 * **詹姆斯·威尔金森(James Wilkinson)与克里斯托夫·赖因施(Christoph Reinsch)**:1971 年在经典著作《Handbook for Automatic Computation》(自动计算手册)中系统收录 SVD 数值算法,将其纳入标准化数值计算工具库,大幅降低了工程人员的使用门槛,加速 SVD 的普及。 #### 3. 相关分解与应用理论:拓展关联技术体系 在基础 SVD 之上,研究者衍生出适配特定场景的"扩展分解方法",解决更复杂的矩阵分析问题,形成完整的技术体系: * **广义 SVD(GSVD)** :1975 年由 C. F. Van Loan 首次提出,1981 年经 C. C. Paige 与 M. A. Saunders 优化改进,专门用于**矩阵对(而非单个矩阵)** 的联合分解,可解决多矩阵协同分析问题,广泛应用于信号处理、控制理论、多变量统计等领域。 * **CS 分解(余弦-正弦分解)** :1970 年由 C. Davis 与 W. Kahan 在研究中"隐式引入",1977 年经 G. W. Stewart 明确"显式定义",是处理**分块正交矩阵**的重要工具,在数值线性代数的分块矩阵计算中不可或缺。 * **摩尔-彭罗斯伪逆** :1955 年由 R. Penrose 基于 SVD 严格定义伪逆公式 A † = V Σ † U T A\^\\dagger = V \\Sigma\^\\dagger U\^T A†=VΣ†UT(其中 Σ † \\Sigma\^\\dagger Σ† 是将 Σ \\Sigma Σ 对角元非零值取倒数、零值保持不变的对角矩阵),彻底解决了**奇异矩阵、非方阵的"逆问题"**,成为最小二乘求解、数据拟合、线性方程组欠定/超定问题的关键技术,是 SVD 向应用转化的重要桥梁。 ### 三、术语演变与学科交叉 SVD 的广泛应用不仅依赖理论与算法突破,其**术语规范化** 消除了认知分歧,**学科交叉深化**则拓展了应用场景,二者共同推动 SVD 成为跨领域基础工具。 #### 1. "奇异值(Singular Value)"的术语起源与规范化 "奇异值"是 SVD 的核心概念,但其定义与名称经历了近 70 年的演变,直至 20 世纪中后期才完全统一,具体历程如下: * **1908 年(首次出现)**:H. Bateman 在研究积分方程时,将"积分核特征值的倒数"称为"奇异值(singular value)",这是该术语在文献中的首次记载,但与现代定义差异较大。 * **1909-1910 年(定义调整)**:E. Picard 在积分方程研究中调整定义,将"对称积分核的特征值"称为"奇异值",虽仍未贴合现代概念,但推动了术语的传播。 * **1937 年(现代定义确立)** :F. Smithies 首次在"现代意义"上使用"奇异值",明确其定义为"矩阵 A A T A A\^T AAT(或 A T A A\^T A ATA)特征值的非负平方根",与当前学界通用定义完全一致。 * **1949-1969 年(术语分歧期)**:尽管核心定义已明确,术语表述仍存在差异------1949 年 Hermann Weyl 在著作中称奇异值为"线性变换的两类特征值";1969 年 I. C. Gohberg 与 M. G. Krein 则将其命名为"s-数(s-numbers)",用于泛函分析领域。 * **20 世纪中后期(术语统一)**:随着 Golub-Reinsch 等算法的普及,SVD 在数值计算中成为标准工具,"奇异值(singular value)"的表述逐渐统一,成为国际通用术语,认知分歧彻底消除。 #### 2. 与统计学的交叉:主成分分析(PCA)的理论基石 SVD 与统计学的深度交叉,催生了数据降维领域的经典方法------主成分分析(PCA),二者的内在关联是 SVD 向数据科学领域渗透的关键: * **1933 年(首次关联)** :哈罗德·霍特林(Harold Hotelling)提出主成分分析(PCA)时,证明"若随机向量的协方差矩阵为 D = V Σ V T D = V \\Sigma V\^T D=VΣVT(即协方差矩阵的特征分解),则主成分向量等价于 V T x V\^T x VTx(对应 SVD 的右奇异向量)",首次明确 PCA 与 SVD 的数学关联。 * **1936 年(应用拓展)**:霍特林进一步提出"典型相关分析(CCA)",其理论基础直接对应广义 SVD(GSVD),将 SVD 的应用从"单变量数据降维"拓展到"多变量协同分析"。 PCA 本质是 SVD 在数据降维中的"直接应用"------对中心化后的数据矩阵 X X X 进行 SVD 分解( X = U Σ V T X = U \\Sigma V\^T X=UΣVT),取前 k k k 个最大奇异值对应的右奇异向量 V k V_k Vk,则 X V k X V_k XVk 即为降维后的数据,这一过程完全遵循施密特"最优低秩逼近定理",因此 SVD 被视为 PCA 的"数学内核"。 #### 3. 其他学科交叉:从数学到多领域基础工具 除统计学外,SVD 还与多个学科深度融合,成为跨领域的基础技术: * **数值分析与矩阵理论**:SVD 的数值算法(如 Golub-Reinsch)推动了数值分析的发展,而矩阵扰动理论(如外尔不等式)又为 SVD 的数值稳定性提供理论支撑,形成"理论-算法-验证"的闭环。 * **信号处理与图像处理**:在信号处理中,SVD 用于信号去噪(通过保留大奇异值、剔除小奇异值过滤噪声);在图像处理中,SVD 用于图像压缩(如 JPEG 2000 标准的核心模块)和特征提取,其"低秩逼近"特性完美适配多媒体数据的冗余性。 * **机器学习与数据科学**:除 PCA 外,SVD 还用于推荐系统(如协同过滤中的矩阵补全)、自然语言处理(如主题模型 LSA 的核心),是机器学习中"降维、特征提取、数据拟合"三大基础任务的重要工具。 ### 四、SVD 早期发展的关键脉络 为清晰呈现 SVD 从"理论萌芽"到"初步成熟"的演进阶段,下表汇总了各时期的关键研究者、关键突破与历史局限,明确各阶段的承上启下作用: | 发展阶段 | 时间范围 | 关键研究者 | 重要突破 | 理论局限 / 后续方向 | |:----------|:----------|:----------------------------------|:----------------------------------------------------------------------------------|:-----------------------------------------------------------| | 理论奠基 | 1873-1874 | 贝尔特拉米(E. Beltrami)、若尔当(C. Jordan) | 1. 贝尔特拉米首次推导**实方阵 SVD** ,搭建基础理论框架; 2. 若尔当用变分法与归纳法解决"退化矩阵"问题,完善理论严谨性。 | 1. 仅适用于实方阵,未覆盖复数、矩形矩阵; 2. 无数值计算方法,无法落地实际应用。 | | 算法探索 | 1889 | 西尔维斯特(J. Sylvester) | 1. 提出基于"二次型"的 SVD 计算规则,建立特征值与奇异值的关联; 2. 首创"微小迭代法",首次尝试将 SVD 转化为可计算算法。 | 1. 算法未证明收敛性,无法实现矩阵完全对角化; 2. 仅适用于"奇异值互异"的矩阵,未参考前人(贝尔特拉米)成果。 | | 范围拓展(无穷维) | 1907 | 施密特(E. Schmidt) | 1. 将 SVD 从"有限维矩阵"推广到"无穷维积分方程"(函数空间); 2. 建立**最优低秩逼近定理**,为数据降维提供理论依据。 | 1. 未分析数值稳定性,难以直接用于工程计算; 2. 研究局限于积分方程领域,未跨学科拓展。 | | 理论成熟(稳定性) | 1912 | 外尔(H. Weyl) | 1. 建立"奇异值扰动引理",量化低秩逼近的误差边界; 2. 提出"Weyl 不等式",证明奇异值的数值稳定性,简化最优逼近定理证明。 | 1. 未涉及复数、矩形矩阵的 SVD 推广; 2. 未解决大规模矩阵的高效计算问题。 | | 数值化与推广 | 1913-1970 | 奥托内、埃卡特、杨、戈卢布等 | 1. 奥托内推广复矩阵 SVD,埃卡特与杨推广矩形矩阵 SVD; 2. 戈卢布团队提出实用数值算法,实现 SVD 工程化; 3. 算法纳入标准化工具库,推动普及。 | 1. 需适配更复杂矩阵结构(如矩阵对、分块矩阵); 2. 需优化大规模、高稀疏矩阵的计算效率。 | ### 五、总结 奇异值分解(SVD)的早期发展,是一部"理论引领应用、应用反推理论"的典型数学工具演进史。从 1873 年贝尔特拉米首次公开发表实方阵 SVD 推导,到若尔当填补退化问题的理论空白,再到西尔维斯特尝试将理论转化为算法,SVD 完成了从"概念萌芽"到"理论框架初步成型"的跨越。 1907 年施密特的无穷维推广与最优低秩逼近定理,让 SVD 突破有限维矩阵的限制,具备了应用潜力;1912 年外尔的扰动理论与不等式,又解决了 SVD 在数值计算中的稳定性问题,为后续工程化奠定基础。20 世纪中后期,奥托内、埃卡特、杨等研究者对复数/矩形矩阵的推广,戈卢布团队对实用数值算法的开发,以及与统计学(PCA)、信号处理、机器学习等学科的交叉融合,最终让 SVD 从纯粹的数学理论,转变为现代数值线性代数、数据科学、工程计算的重要工具之一。 纵观其历程,SVD 的价值不仅在于数学理论的严谨性,更在于每一次关键突破都精准回应了实际需求------从积分方程的分析到数据降维的实现,从矩阵计算的稳定到工程问题的解决。这种"理论与应用的深度互动",也为其他数学工具从学术研究走向产业实践提供了经典范式。 *** ** * ** *** ## via: * On the Early History of the Singular Value Decomposition[_](https://jontalle.web.engr.illinois.edu/uploads///493/Stewart-SVD-History.93.pdf) \| SIAM Review

相关推荐
斐夷所非4 天前
线性代数 · SVD | 奇异值分解的早期历史(一)
svd 早期历史