【算法分析与设计】第48篇：流算法与数据概要技术

想象你负责监控一个国家骨干网络的路由器流量。每秒有数百万个数据包经过，你想知道哪些源IP地址占据了超过1%的总流量，以便检测DDoS攻击。存储每个IP地址的精确计数需要为每个出现过的IP维护一个计数器------在IPv6地址空间下，这需要天文数字的内存。更困难的是，数据以线速率到达，你无法暂停流量来整理数据结构。这就是流模型面对的场景：输入是一个序列 a1,a2,...,ama1,a2,...,am，来自一个大小为 nn 的全集，nn 可能极大（如 21282128），而算法只能使用远小于 nn 甚至远小于 mm 的空间，以单遍或少数几遍的方式处理数据，最终输出某个统计量的近似估计。

一、流模型的形式化

数据流模型的核心约束是存储空间为亚线性------o(n)o(n) 甚至 O(log⁡n)O(logn)。在此约束下，算法的设计哲学发生根本转变：我们不再追求精确答案（精确答案通常需要 Ω(n)Ω(n) 空间），而是接受一个有理论误差界的近似答案。

流模型主要有两种变体。现金寄存器模型 （cash register model）仅处理元素的插入------每个流元素 aiai 代表"项 aiai 的频数加1"。十字转门模型（turnstile model）允许插入和删除------元素可以出现也可以被撤销。两种模型在算法设计上有重要差异，本文聚焦前者。

形式化地，设全集中有 nn 个不同元素，流长度为 mm。对每个元素 i∈{1,...,n}i∈{1,...,n}，其真实频数记为 fifi。算法在单遍扫描流后，需要估计某个关于频数向量的统计量。算法的空间消耗以比特度量，我们希望它是 O(log⁡n)O(logn) 或 O(log⁡m)O(logm) 级别，而非 O(n)O(n)。

二、频繁元素问题与Misra-Gries算法

频繁元素问题是流模型下最经典的问题之一：给定流和参数 kk，找出所有出现频数超过 m/km/k 的元素（即频率超过 1/k1/k 的"重击者"）。精确求解需要 Ω(n)Ω(n) 空间，但若允许近似------允许输出包含少量假阳性但不漏掉任何重击者------空间可大幅压缩。

Misra-Gries算法以一个极简洁的数据结构解决了这一问题：维护一个大小为 k−1k−1 的字典（键值对集合）。算法流程如下。

初始化空字典 DD。对流中每个到达的元素 xx：若 xx 已在 DD 中，将其计数器加1。若 xx 不在 DD 中且 ∣D∣<k−1∣D∣<k−1，将 xx 加入 DD，计数器设为1。若 xx 不在 DD 中且 ∣D∣=k−1∣D∣=k−1（已满），将 DD 中所有计数器减1，删除计数器归零的键。

流处理完毕后，DD 中存储的元素及其计数构成输出。对于那些不在 DD 中的元素，算法报告其频数为0。

误差分析是Misra-Gries算法的精髓。算法的核心不变量是：字典中存储的计数与真实频数之差，不超过"集体减1"操作的总次数。每次集体减1操作减少 kk 个单位计数（k−1k−1 个元素各减1，加上当前到达元素未计入的1）。设集体减1操作共发生 cc 次，则 c≤m/kc≤m/k。对任意元素 ii，其真实频数 fifi 与算法输出估计 f^if^i 满足：

fi−mk≤f^i≤fifi−km≤f^i≤fi

这给出了单侧误差保证：算法绝对不会高估任何元素的频数，低估值则不超过 m/km/k。特别地，若某个元素的真实频数超过 m/km/k，则 f^i≥fi−m/k>0f^i≥fi−m/k>0，必定出现在字典中。因此算法不会漏掉任何重击者。字典大小 k−1k−1 意味着空间为 O(klog⁡n)O(klogn) 比特------当 kk 为常数或对数级时，空间远小于 nn。

Misra-Gries算法的空间效率可以进一步优化。将"字典存满则集体减1"改为"维护一个优先队列，仅保留计数最大的 k−1k−1 个元素"，可得到 O(k)O(k) 空间的Lossy Counting算法，误差分析类似。

三、Count-Min Sketch：任意元素的频数估计

Misra-Gries仅回答了"哪些元素是重击者"，且需要字典结构存储键值对。当应用场景要求快速估计任意给定元素的频数（例如查询任意IP地址的流量），需要一种更紧凑的结构。Count-Min Sketch以纯概率方法解决了这一问题，无需存储键，仅需一个二维计数器数组。

Count-Min Sketch的构造如下。选取 dd 个两两独立的哈希函数 h1,...,hdh1,...,hd，每个 hjhj 将全集映射到 {1,2,...,w}{1,2,...,w}。维护一个 d×wd×w 的计数器矩阵 CC，所有计数器初始为零。

更新操作：当流元素 xx 到达时，对 j=1j=1 到 dd，将 C $j$ $hj(x)$ C $j$ $hj(x)$ 加1。

查询操作：估计元素 xx 的频数时，返回 f^x=min⁡j=1dC $j$ $hj(x)$ f^x=minj=1dC $j$ $hj(x)$ 。

直觉在于：每个计数器 C $j$ $hj(x)$ C $j$ $hj(x)$ 不仅计入了 xx 的出现，也可能计入了其他被哈希函数映射到同一位置的不同元素的出现------这是哈希冲突造成的"噪声"。取所有 dd 个计数器的最小值，是为了压缩噪声的上偏------噪声只会高估，因此最小值最接近真实值。

误差分析：设真实频数为 fxfx。对任意固定的 jj，由于哈希冲突，有 C $j$ $hj(x)$ =fx+NjC $j$ $hj(x)$ =fx+Nj，其中 NjNj 是映射到同一位置的其他元素的频数之和。哈希函数的均匀性保证 E $Nj$ =∑y≠xfy⋅Pr⁡ $hj(y)=hj(x)$ ≤∥f∥1w=mwE $Nj$ =∑y=xfy⋅Pr $hj(y)=hj(x)$ ≤w∥f∥1=wm。

由马尔可夫不等式，Pr⁡ $Nj\geq2mw$ ≤12Pr $Nj\geqw2m$ ≤21。dd 行均为独立哈希函数，因此所有行同时出现大噪声的概率 ≤2−d≤2−d。取 w=⌈2/ε⌉w=⌈2/ε⌉，d=⌈log⁡(1/δ)⌉d=⌈log(1/δ)⌉，则以概率至少 1−δ1−δ 有：

f^x≤fx+εmf^x≤fx+εm

空间消耗为 w⋅d=O(1εlog⁡1δ)w⋅d=O(ε1logδ1) 个计数器。每个计数器需记录频数值，最大可能为 mm，占用 O(log⁡m)O(logm) 比特。总空间 O(1εlog⁡1δlog⁡m)O(ε1logδ1logm) 比特，与全集大小 nn 完全无关------Count-Min Sketch用哈希冲突换取了与全集规模解耦的亚线性空间。

四、误差与空间的权衡

Misra-Gries和Count-Min Sketch代表了流算法中两类基本的空间-误差权衡策略。

Misra-Gries是确定性的：其误差界 εmεm 是确定保证，空间 O(1/ε)O(1/ε) 也是确定的。代价是必须存储键（元素标识），因此空间依赖隐含着元素标识的存储成本。

Count-Min Sketch是概率性 的：误差界 εmεm 以概率 1−δ1−δ 成立，空间 O(1εlog⁡1δ)O(ε1logδ1)。其决定性优势在于不存储键------仅存计数器数组，因而特别适合全集空间极大（如IPv6地址、用户ID空间）的场景。查询需要在线计算哈希函数，速度快且内存访问模式规整，对硬件实现友好。

更一般地，流算法领域已建立了频数估计问题的空间下界：任何以常数概率保证误差不超过 εmεm 的算法，至少需要 Ω(1/ε)Ω(1/ε) 的空间。Misra-Gries和Count-Min Sketch均达到或接近这一下界，因而在渐进意义下是最优的。

五、流模型在其他统计问题中的应用

流模型的应用远不止频繁元素估计。

不同元素计数：估计流中不同元素的数量（基估计）。Flajolet-Martin算法和HyperLogLog算法使用哈希后的最大前导零位数作为估计量，可在 O(log⁡log⁡n)O(loglogn) 空间内达到约 2%2% 的相对误差，被广泛部署于数据库系统和大数据框架中。

分位数估计：在流中估计数据分布的中位数、第95百分位数等。Greenwald-Khanna算法在 O(1εlog⁡(εm))O(ε1log(εm)) 空间内维护流的分位数概要。

频率矩估计：估计流的 kk 阶频率矩 Fk=∑ifikFk=∑ifik。F0F0 即不同元素数，F1=mF1=m，F2F2 用于度量分布的偏斜程度。Alon-Matias-Szegedy算法通过随机哈希技巧在亚线性空间内估计 FkFk，是流算法的理论基石之一。

滑动窗口模型：上述算法假定流是无限累积的。当仅需维护最近 NN 个元素的统计量（滑动窗口）时，指数直方图等技术可在 O(1εlog⁡2N)O(ε1log2N) 空间内维护近似计数。

六、总结与展望

流算法以严格的亚线性空间约束，重新定义了大数据场景下"高效"的含义。Misra-Gries以 O(1/ε)O(1/ε) 的确定性空间保证不漏掉任何重击者，Count-Min Sketch以 O(1εlog⁡1δ)O(ε1logδ1) 的概率空间提供任意元素的频数估计。两者均通过巧妙的误差-空间权衡，在理论下界逼近最优。

流算法揭示了一条重要的算法设计原则：随机化和近似是应对大数据的两大利器。随机化通过哈希将大规模全集的冲突概率化，近似通过牺牲精度换取空间的指数级压缩。这一原则不仅适用于数据流模型，也渗透在亚线性时间算法、外存算法和并行算法的设计之中。

下一篇，我们将进入一个更宏观的跨学科主题------算法博弈论与机制设计。当计算的主体不再是算法本身，而是多个理性而自私的智能体时，算法的目标从"优化"转变为"均衡"。拍卖设计、匹配市场和自私路由中的算法问题，将为本专栏的算法之旅带来最后的综合视角。