大整数相乘的 Toom-Cook 算法

编程时写整数乘法,通常我们不会太关心底层细节。a * b 写起来非常自然,好像一条语句就能瞬间完成。

对固定宽度整数来说,比如 32 位或 64 位整数,乘法通常确实可以由少量机器指令完成,成本可以近似看成常数。但如果是两个几千位、几万位甚至更大的整数相乘,情况就不一样了。此时 * 背后不再是一条简单的 CPU 乘法指令,而是一整套大整数乘法算法。

这篇文章要讲的,就是大整数乘法中的一个经典算法:Toom-Cook 算法

从普通乘法说起

当数值远超一个机器字或寄存器能表示的范围时,就不能再把一次整数乘法视作 \(O(1)\) 操作了。

为了简化讨论,下面把 \(n\) 理解成大整数被拆成的"单元数量"。每个单元可以是一个机器字,也可以是一段固定长度的二进制位,可以快速相乘。

小时候学过的竖式乘法,本质上就是普通乘法。如果两个整数各有 \(n\) 个单元,那么普通乘法大概要做 \(n^2\) 级别的单元乘法。

对于特别大的整数,\(n^2\) 会很快变得昂贵。

Karatsuba 算法是第一个非常经典的优化。它把一个大整数拆成两半,本来需要 4 次子乘法,但通过代数变形,只需要 3 次子乘法。它的复杂度大约是:

\[O(n^{\log_2 3}) \approx O(n^{1.585}) \]

这已经比普通乘法好不少。

而 Toom-Cook 可以看成是 Karatsuba 的推广:Karatsuba 是拆成 2 块,Toom-Cook 可以拆成 3 块、4 块、5 块甚至更多块。

不同种类的乘法

讨论大数乘法问题时,很多不同类型的"乘法"成本并不一样。这个首先要明确。

  1. 机器字乘法 :如果两个数都能放进一个机器字,比如 32 位或 64 位整数,那么一次乘法通常可以看成 \(O(1)\)。这是我们平时写固定宽度整数乘法时最接近的情况。

  2. 大整数乘法 :如果两个数都有很多个单元,那么 A * B 就不是一次 \(O(1)\) 操作,而是一个规模随整数长度增长的计算问题。普通竖式乘法、Karatsuba、Toom-Cook 优化的都是这一层的乘法。

  3. 大整乘小常数 :比如 \( 2a_1 \),这里的 2 和 4 是固定小常数。它们通常可以通过移位和加法完成。从单个机器字的角度看,每一步很便宜;但如果整个大整数有 \(n\) 个单元,扫完整个数组仍然需要 \(O(n)\) 时间。

  4. 乘以 \(\beta\) 或 \(\beta^i\):后面我们会把大整数写成:

\[A = a_0 + a_1\beta + a_2\beta^2 \]

这里的 \(\beta\) 是分块基数。乘以 \(\beta\)、\(\beta^2\) 只需要移位、搬移和进位处理,而不是普通意义上的大整数乘法。

所以,当我们说 Toom-Cook 把 9 次乘法减少到 5 次乘法时,减少的是第 2 类:真正昂贵的大整数子乘法。

大整数如何拆成多项式

假设我们要计算两个大整数 \(A\) 和 \(B\) 的乘积。要先把它们拆成若干块。

比如把 \(A\) 拆成 3 块:

\[A = a_0 + a_1\beta + a_2\beta^2 \]

这里的 \(\beta\) 可以理解成一个很大的进制基数。例如一个大整数内部用数组存储,每个数组元素存一段二进制位,那么 \(\beta\) 就对应一块的进位单位。

text 复制代码
A = [a2][a1][a0]

假如 \(\beta = 10\),这就等价于个十百千万了(而实际上基数也可以取大得多的数)。同理 \( B = b_0 + b_1\beta + b_2\beta^2 \)

接下来,不再把 \(A\) 和 \(B\) 仅仅看成整数,而是看成两个多项式在 \(x = \beta\) 时的取值。

也就是:

\[A(x) = a_0 + a_1x + a_2x^2 \]

\[B(x) = b_0 + b_1x + b_2x^2 \]

原来的整数 \(A\) 和 \(B\),就是 \(A(\beta)\) 和 \(B(\beta)\),也就是函数 \(C(x)=A(x)B(x)\),在 \(x = \beta\) 的值

Toom-Cook 的核心三步

Toom-Cook 的流程可以概括成三步:

text 复制代码
取值 evaluation
逐点相乘 pointwise multiplication
插值 interpolation

下面以 Toom-3 为例说明。就是把整数拆成 3 块。

此时 \(A(x)\) 和 \(B(x)\) 都是二次多项式。两个二次多项式相乘,结果是一个四次多项式:

\[C(x) = A(x)B(x) \]

四次多项式有 5 个系数:

\[C(x) = c_0 + c_1x + c_2x^2 + c_3x^3 + c_4x^4 \]

所以,只要知道它在 5 个不同点上的值,就能恢复出整个多项式。

第一步:取值

Toom-3 常用的取值点是:

text 复制代码
0, 1, -1, 2, infinity

这里的 infinity 不是真的无穷大,也不是要带入极限。它只是一个记号,表示取最高次项系数。

对于:

\[A(x) = a_0 + a_1x + a_2x^2 \]

有:

text 复制代码
A(infinity) = a2

其他几个点也很直观:

text 复制代码
A(0)  = a0
A(1)  = a0 + a1 + a2
A(-1) = a0 - a1 + a2
A(2)  = a0 + 2a1 + 4a2

\(B(x)\) 也做同样的事情:

text 复制代码
B(0)  = b0
B(1)  = b0 + b1 + b2
B(-1) = b0 - b1 + b2
B(2)  = b0 + 2b1 + 4b2
B(infinity) = b2

注意,取值过程里虽然出现了 \(2a_1\)、\(4a_2\) 这样的写法,但这不是递归意义上的"大整数乘法"。因为 2 和 4 是固定小常数,它们通常可以通过移位和加法完成。

第二步:逐点相乘

求完值之后,我们得到若干组点值。然后在相同点上分别相乘:

text 复制代码
C(0)        = A(0) * B(0)
C(1)        = A(1) * B(1)
C(-1)       = A(-1) * B(-1)
C(2)        = A(2) * B(2)
C(infinity) = A(infinity) * B(infinity)

这里一共做了 5 次乘法。

需要特别注意的是,这里的"乘法"不是 CPU 的单条机器乘法指令,而是 5 次规模更小的大整数乘法。每个参与相乘的数,长度大约是原来的三分之一,再加上一点由求值带来的常数级增长。

如果直接拆成 3 块做普通分块乘法,本来需要 9 次块乘法:

text 复制代码
a0*b0, a0*b1, a0*b2
a1*b0, a1*b1, a1*b2
a2*b0, a2*b1, a2*b2

Toom-3 的关键是:用加减、移位、乘以小常数和插值,换掉其中一部分昂贵的大整数乘法,把 9 次子乘法压缩成 5 次子乘法。

对于大整数来说,乘法通常比加减法贵得多。所以用更多线性级别的操作,换更少的递归乘法,通常是划算的。

第三步:插值

经过逐点相乘之后,我们知道了 \(C(x)\) 在几个点上的值。

但是最终需要的是 \(C(x)\) 的系数,也就是要恢复:

\[C(x) = c_0 + c_1x + c_2x^2 + c_3x^3 + c_4x^4 \]

这个过程就是插值。

四次多项式可以由 5 个不同点上的取值唯一确定,所以我们可以从:

text 复制代码
C(0), C(1), C(-1), C(2), C(infinity)

恢复出:

text 复制代码
c0, c1, c2, c3, c4

恢复出这些系数之后,再把 \(x = \beta\) 代回去:

\[AB = c_0 + c_1\beta + c_2\beta^2 + c_3\beta^3 + c_4\beta^4 \]

这样就得到了原来两个大整数的乘积。

这里的乘以 \(\beta^i\) 主要对应把系数块放到正确的位置上,并做进位归一化,也不是重新做几次普通意义上的大整数乘法。

伪代码

如果把上面的流程写成伪代码,大致是这样:

text 复制代码
toom3_mul(A, B):
    split A into a0, a1, a2
    split B into b0, b1, b2

    evaluate:
        p0   = a0
        p1   = a0 + a1 + a2
        pm1  = a0 - a1 + a2
        p2   = a0 + 2a1 + 4a2
        pinf = a2

        q0   = b0
        q1   = b0 + b1 + b2
        qm1  = b0 - b1 + b2
        q2   = b0 + 2b1 + 4b2
        qinf = b2

    pointwise multiply:
        r0   = p0 * q0
        r1   = p1 * q1
        rm1  = pm1 * qm1
        r2   = p2 * q2
        rinf = pinf * qinf

    interpolate:
        recover c0, c1, c2, c3, c4 from r0, r1, rm1, r2, rinf

    recombine:
        return c0 + c1*beta + c2*beta^2 + c3*beta^3 + c4*beta^4

上面伪代码里,真正昂贵的递归大整数乘法,主要是这 5 行:

text 复制代码
r0   = p0 * q0
r1   = p1 * q1
rm1  = pm1 * qm1
r2   = p2 * q2
rinf = pinf * qinf

Toom-k 的一般形式

更一般地,如果把整数拆成 \(k\) 块,那么对应的多项式次数是 \(k - 1\)。

两个 \(k-1\) 次多项式相乘,乘积多项式的最高次数是:

\[2k - 2 \]

因此,它一共有:

\[2k - 1 \]

个系数。

为了恢复这个乘积多项式,我们需要 \(2k - 1\) 个取值点,也就需要做 \(2k - 1\) 次规模更小的子乘法。

在 \(k\) 固定,并且取值、插值、搬移、进位等额外操作都近似为线性级别的前提下,可以粗略写出递推式:

\[T(n) = (2k - 1)T(n/k) + O(n) \]

根据主定理,它的复杂度约为:

\[O(n^{\log_k(2k-1)}) \]

几个常见算法可以粗略对比如下:

text 复制代码
普通乘法:O(n^2)
Karatsuba:拆成 2 块,做 3 次子乘法,指数约 1.585
Toom-3:拆成 3 块,做 5 次子乘法,指数约 1.465
Toom-4:拆成 4 块,做 7 次子乘法,指数约 1.404

从理论上看,\(k\) 越大,复杂度指数越低。

但是,\(k\) 变大之后,取值点更多,插值更复杂,中间结果也更多,常数开销会明显增加。因此真实的大整数库不会盲目使用很大的 \(k\),而是会根据整数规模在普通乘法、Karatsuba、Toom-Cook、FFT 或 NTT 类算法之间切换。

总结

Toom-Cook 的整体思路可以概括为:

text 复制代码
大整数太长,直接乘很慢
       |
       v
把大整数按 beta 拆成几块
       |
       v
把这些块看成多项式系数
       |
       v
在几个简单点上求值
       |
       v
在相同点上逐点相乘
       |
       v
通过插值恢复乘积多项式
       |
       v
把 x = beta 代回去,得到最终整数结果

其中最关键的洞察是:大整数乘法可以转化成多项式乘法,而多项式乘法可以通过"取值 + 逐点相乘 + 插值"来完成

Toom-Cook 并不是让乘法消失,而是把许多直接的分块乘法,变成更少次数的子问题乘法。

它付出的代价是更多加减法、移位、乘以小常数、插值和进位处理。由于这些操作通常比同规模的大整数乘法便宜,所以在数字足够大时,这种交换是划算的。

从这个角度看,Toom-Cook 和 FFT 乘法确实有某种共同精神:它们都不是直接在系数上硬乘,而是换一个表示空间,让乘法在新的表示中更容易完成。