Toeplitz结构及其快速算法详解

1. 引言

在信号处理、控制理论、时间序列分析以及数值线性代数中，Toeplitz矩阵是一类极为重要的结构化矩阵。它因数学家奥托·特普利茨（Otto Toeplitz）而得名，其显著特征是矩阵的每一条对角线上的元素为常数 。这种特殊的重复模式不仅蕴含了丰富的数学性质，更使得许多原本需要 O(n3)O(n^3)O(n3) 的计算（如求解线性系统、求逆、计算行列式）可以加速至 O(n2)O(n^2)O(n2) 甚至 O(nlog⁡n)O(n \log n)O(nlogn)。

本文将介绍Toeplitz矩阵的基本定义和性质，阐述它在典型问题中的应用，然后重点讨论几种经典且高效的快速算法------从经典的Levinson递推、Trench求逆，到基于FFT的循环嵌入方法。全文注重公式推导与算法思想，不包含具体代码实现。

2. Toeplitz矩阵的定义与基本性质

2.1 定义

一个 n×nn \times nn×n 的Toeplitz矩阵 TnT_nTn 具有如下形式：

Tn= $t0t-1t-2\dotst-(n-1)t1t0t-1\dotst-(n-2)t2t1t0\dotst-(n-3)⋮⋮⋮⋱⋮tn-1tn-2tn-3\dotst0$ T_n = \begin{bmatrix} t_0 & t_{-1} & t_{-2} & \cdots & t_{-(n-1)} \\ t_1 & t_0 & t_{-1} & \cdots & t_{-(n-2)} \\ t_2 & t_1 & t_0 & \cdots & t_{-(n-3)} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ t_{n-1} & t_{n-2} & t_{n-3} & \cdots & t_0 \end{bmatrix} Tn= t0t1t2⋮tn−1t−1t0t1⋮tn−2t−2t−1t0⋮tn−3⋯⋯⋯⋱⋯t−(n−1)t−(n−2)t−(n−3)⋮t0

即对于任意满足 1≤i,j≤n1 \le i,j \le n1≤i,j≤n 的指标，有 (Tn)i,j=tj−i(T_n){i,j} = t{j-i}(Tn)i,j=tj−i。这里 {tk}k=−(n−1)n−1\{t_k\}{k=-(n-1)}^{n-1}{tk}k=−(n−1)n−1 称为矩阵的生成序列 （或符号序列），其中 t0t_0t0 位于主对角线，tk (k>0)t_k\ (k>0)tk (k>0) 位于第 kkk 条上对角线，t−k (k>0)t{-k}\ (k>0)t−k (k>0) 位于第 kkk 条下对角线。

2.2 对称性与Hermitian性

如果对所有的 kkk 满足 t−k=tkt_{-k} = t_kt−k=tk，则 TnT_nTn 是对称的（实对称或复对称）。
如果对所有的 kkk 满足 t−k=tk‾t_{-k} = \overline{t_k}t−k=tk（共轭），则 TnT_nTn 是Hermitian矩阵（自伴）。此时 t0t_0t0 必须是实数。

这类Hermitian Toeplitz矩阵在平稳随机过程的协方差矩阵中天然出现。

2.3 位移结构

与范德蒙矩阵类似，Toeplitz矩阵也具有低位移秩 （displacement rank）。定义下移矩阵 ZZZ（其主对角线下方第一条次对角线元素为1，其余为0），可以验证：

ZTn−TnZT= $0\dots0t-1⋮⋱⋮t-20\dots0t-(n-1)tn-1\dotst10$ −类似结构 Z T_n - T_n Z^T = \begin{bmatrix} 0 & \cdots & 0 & t_{-1} \\ \vdots & \ddots & \vdots & t_{-2} \\ 0 & \cdots & 0 & t_{-(n-1)} \\ t_{n-1} & \cdots & t_1 & 0 \end{bmatrix}- \text{类似结构} ZTn−TnZT= 0⋮0tn−1⋯⋱⋯⋯0⋮0t1t−1t−2t−(n−1)0 −类似结构

更精确的位移方程表明Toeplitz矩阵的位移秩至多为2，这一性质是设计诸多快速算法的理论基础。

2.4 与循环矩阵的关系

如果生成序列满足 t−k=tn−k (k=1,...,n−1)t_{-k} = t_{n-k}\ (k=1,\dots,n-1)t−k=tn−k (k=1,...,n−1) 且 t−k=tn−kt_{-k}=t_{n-k}t−k=tn−k，则Toeplitz矩阵退化为循环矩阵 （circulant matrix）。循环矩阵可以被离散傅里叶变换（DFT）对角化，因此其乘法与求逆可在 O(nlog⁡n)O(n \log n)O(nlogn) 时间内完成。普通Toeplitz矩阵通常可以通过"循环嵌入"技巧近似为循环矩阵，从而利用FFT加速。

3. 典型应用

平稳时间序列 ：自协方差函数 R(k)=E $Xt+kXt‾$ R(k) = \mathbb{E} $X_{t+k} \\overline{X_t}$ R(k)=E $Xt+kXt$ 生成的Toeplitz矩阵出现在Yule-Walker方程中，用于估计AR模型参数。
数字信号处理：线性卷积与线性相关的矩阵表示就是Toeplitz结构；自适应滤波（如LMS、RLS算法）也常涉及Toeplitz系统。
数值偏微分方程：某些差分格式（如常系数一维问题）离散后得到Toeplitz矩阵，快速求解器可大幅提升效率。
控制理论：离散系统的Hankel矩阵与Toeplitz矩阵密切相关，用于平衡降阶等操作。

4. 快速算法

我们从最经典的 O(n2)O(n^2)O(n2) 算法开始，逐步引入 O(nlog⁡n)O(n \log n)O(nlogn) 的FFT加速方案。

4.1 Levinson递推（求解 Tnx=bT_n \mathbf{x} = \mathbf{b}Tnx=b）

Levinson算法是求解Toeplitz系统最著名的 O(n2)O(n^2)O(n2) 方法。它利用递推关系，依次求出阶数 k=1,2,...,nk=1,2,\dots,nk=1,2,...,n 的解。

设 TkT_kTk 为 k×kk \times kk×k 的首主子阵，我们需要求解 Tkx(k)=b(k)T_k \mathbf{x}^{(k)} = \mathbf{b}^{(k)}Tkx(k)=b(k)，其中 b(k)\mathbf{b}^{(k)}b(k) 是 b\mathbf{b}b 的前 kkk 个分量。算法同时更新两个辅助向量：前向预测向量 a(k)\mathbf{a}^{(k)}a(k)（满足 Tka(k)=− $t-1,t-2,...,t-k$ TT_k \mathbf{a}^{(k)} = - $t_{-1}, t_{-2}, \\dots, t_{-k}$ ^TTka(k)=− $t-1,t-2,...,t-k$ T）和后向预测向量 b(k)\mathbf{b}^{(k)}b(k)（满足 Tkb(k)=− $t1,t2,...,tk$ TT_k \mathbf{b}^{(k)} = - $t_1, t_2, \\dots, t_k$ ^TTkb(k)=− $t1,t2,...,tk$ T）。

关键递推步骤 （设已求得 k−1k-1k−1 阶的解）：

计算残差：
Δk−1=a(k−1)⋅ $t-1,...,t-(k-1)$ T+t−k \Delta_{k-1} = \mathbf{a}^{(k-1)} \cdot $t_{-1}, \\dots, t_{-(k-1)}$ ^T + t_{-k} Δk−1=a(k−1)⋅ $t-1,...,t-(k-1)$ T+t−k
（这里 ⋅\cdot⋅ 表示向量点积，更准确说是 t−1t_{-1}t−1 到 t−(k−1)t_{-(k-1)}t−(k−1) 与 a(k−1)\mathbf{a}^{(k-1)}a(k−1) 各分量的组合）
更新前向预测向量：
a(k)= $a(k-1)0$ +Δk−1Ek−1 $0b(k-1)$ \mathbf{a}^{(k)} = \begin{bmatrix} \mathbf{a}^{(k-1)} \\ 0 \end{bmatrix}+ \frac{\Delta_{k-1}}{E_{k-1}} \begin{bmatrix} 0 \\ \mathbf{b}^{(k-1)} \end{bmatrix} a(k)= $a(k-1)0$ +Ek−1Δk−1 $0b(k-1)$
其中 Ek−1=t0+∑j=1k−1aj(k−1)t−jE_{k-1} = t_0 + \sum_{j=1}^{k-1} a_j^{(k-1)} t_{-j}Ek−1=t0+∑j=1k−1aj(k−1)t−j 是预测误差能量。
类似更新后向预测向量 b(k)\mathbf{b}^{(k)}b(k) 以及当前系统的解 x(k)\mathbf{x}^{(k)}x(k)。

整个过程每步需要 O(k)O(k)O(k) 次算术运算，总复杂度为 ∑k=1nO(k)=O(n2)\sum_{k=1}^n O(k) = O(n^2)∑k=1nO(k)=O(n2)。Levinson递推的优点是稳定且易于理解，但需要注意当矩阵接近奇异时可能产生数值问题。

4.2 Trench算法（求逆 Tn−1T_n^{-1}Tn−1）

对于Hermitian正定Toeplitz矩阵，Trench算法利用位移结构直接计算逆矩阵的各个元素，复杂度同样是 O(n2)O(n^2)O(n2)。逆矩阵不一定是Toeplitz的，但它具有半分离（semi-separable）结构，可以用少量参数表示。

Trench算法的输出是逆矩阵的第一列和最后一行，其他元素可通过递推得到。具体地，令 τ(k)\tau^{(k)}τ(k) 为某中间变量，逆矩阵的元素满足：

(Tn−1)i,j={αi−1βj−1+⋯(i≤j)对称形式(i>j) (T_n^{-1}){i,j} = \begin{cases} \alpha{i-1} \beta_{j-1} + \cdots & (i \le j) \\ \text{对称形式} & (i > j) \end{cases} (Tn−1)i,j={αi−1βj−1+⋯对称形式(i≤j)(i>j)

其中 {αi},{βi}\{\alpha_i\},\{\beta_i\}{αi},{βi} 由Levinson递推中的预测系数导出。整个计算复杂度为 O(n2)O(n^2)O(n2)，存储只需 O(n)O(n)O(n) 个参数。

4.3 基于FFT的循环嵌入算法

当 nnn 很大时，我们希望达到 O(nlog⁡n)O(n \log n)O(nlogn) 的复杂度。核心思想是将Toeplitz矩阵嵌入一个更大的循环矩阵中，然后利用FFT快速求解。

考虑 m×mm \times mm×m 循环矩阵 CCC，其第一列为

$t0,t1,...,tn-1,0,...,0,t-(n-1),...,t-1$ T $t_0, t_1, \\dots, t_{n-1}, 0, \\dots, 0, t_{-(n-1)}, \\dots, t_{-1}$ ^T $t0,t1,...,tn-1,0,...,0,t-(n-1),...,t-1$ T

其中 m≥2n−1m \ge 2n-1m≥2n−1 且通常取为2的幂。可以验证，Toeplitz矩阵 TnT_nTn 是 CCC 的左上角 n×nn \times nn×n 子矩阵。为了解 Tnx=bT_n \mathbf{x} = \mathbf{b}Tnx=b，我们构造扩展系统：

Cy=b~,b~= $b;0$ C \mathbf{y} = \mathbf{\tilde{b}}, \quad \mathbf{\tilde{b}} = $\\mathbf{b}; \\mathbf{0}$ Cy=b~,b~= $b;0$

由于循环矩阵可通过FFT对角化：C=F−1ΛFC = F^{-1} \Lambda FC=F−1ΛF，其中 Λ=diag⁡(Fc1)\Lambda = \operatorname{diag}(F \mathbf{c}_1)Λ=diag(Fc1)，c1\mathbf{c}_1c1 是 CCC 的第一列。因此

y=F−1((Fc1)⊙−1(Fb~)) \mathbf{y} = F^{-1} \left( (F \mathbf{c}_1) \odot^{-1} (F \mathbf{\tilde{b}}) \right) y=F−1((Fc1)⊙−1(Fb~))

这里 ⊙−1\odot^{-1}⊙−1 表示逐点除法。取 y\mathbf{y}y 的前 nnn 个分量作为 x\mathbf{x}x 的近似。然而，直接使用这种方法会引入边界误差 ，因为 CCC 的右下角元素并非完全匹配 TnT_nTn。为了消除误差，可以采用预处理共轭梯度法（PCG）将此循环矩阵作为预处理子，或者使用更精确的"循环位移"技术（如Strang循环预处理）。

另一种更直接的方法是使用快速Toeplitz求解器 ，它基于Gohberg--Semencul 公式：逆矩阵可以表示为若干个下三角Toeplitz矩阵与上三角Toeplitz矩阵的乘积和，而Toeplitz矩阵与向量的乘积可以通过FFT在 O(nlog⁡n)O(n \log n)O(nlogn) 时间内完成，结合共轭梯度法迭代求解，整体达到 O(nlog⁡n)O(n \log n)O(nlogn) 复杂度。

4.4 比较与选择

算法	复杂度	适用场景
Levinson递推	O(n2)O(n^2)O(n2)	中等规模 n≤103n \le 10^3n≤103，实现简单，对右端项变换灵活
Trench求逆	O(n2)O(n^2)O(n2)	需要显式逆矩阵（如某些统计推导），且矩阵正定
循环嵌入 + PCG	O(nlog⁡n)O(n \log n)O(nlogn) 每迭代步	大规模问题，可容忍迭代求解，通常需要数十步收敛
分裂式（BTTB）FFT	O(nlog⁡n)O(n \log n)O(nlogn)	块Toeplitz结构（多维情况）

5. 推广与类似结构

块Toeplitz矩阵（Block Toeplitz）：每个元素本身是一个小矩阵（块），在多通道信号处理、偏微分方程离散化中常见。其快速算法通常借助块Levinson递推或多维FFT。
Toeplitz-plus-Hankel矩阵：某些问题（如离散余弦变换）会产生这种组合结构，利用位移秩可统一处理。
Hankel矩阵 ：是Toeplitz矩阵沿反对角线的"镜像"，通过指标变换 Hi,j=Ti,n−j+1H_{i,j} = T_{i, n-j+1}Hi,j=Ti,n−j+1 可以互相转换，因此所有快速算法均可平移。

6. 总结

Toeplitz矩阵以其简约的常数对角线特征，成为结构化矩阵家族中的基石。从Levinson递推的经典 O(n2)O(n^2)O(n2) 算法，到基于FFT的循环嵌入与预处理的 O(nlog⁡n)O(n \log n)O(nlogn) 方法，研究者们已经构建了一套完整且高效的算法体系。在实际应用中，若问题规模不大且要求直接解，Levinson算法是首选；若规模巨大且可接受迭代误差，则应拥抱FFT加速的迭代方法。