如何在追求正确性的过程中，意外让路由匹配性能提升 20,000 倍

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

令人瞩目的性能数字

TanStack Router 的路由匹配性能提升了惊人的 20,000 倍。坦白说，这个数字确实是精挑细选的案例，但它来自真实的生产环境。更重要的是，它表明------在新算法下，匹配路径名与路由定义的过程，不再受限于应用中路由数量的多少。

真正的问题：正确性，而非速度

路由器的核心职责之一，是将给定的 URL 路径（如 /users/123）匹配到路由定义（如 /users/$userId）。这看似简单，却因静态段、动态段、可选段、通配符等多样化规则，以及优先级逻辑的复杂性而变得困难。

旧版算法基于一份扁平排序的路由列表 ，逐个遍历以寻找匹配。随着可选段和通配符等功能的加入，算法越来越复杂、速度下降，甚至出现匹配错误。排序规则既不稳定又不一致------Chrome 与 Firefox 的表现都不同。于是，团队决定彻底重写算法。

段式 Trie 树结构（Segment Trie）

新算法将路由树解析成一棵"段式 Trie 树"，匹配时通过遍历该树实现。这种结构让精确匹配规则更容易实现，同时性能显著提升。

Trie（前缀树）是一种以公共前缀组织节点的树形结构，非常契合 URL 路径的层级特征。

例如，对于单一路由 /users/$id，对应的 Trie 结构如下：

复制代码

root └── users └── $id => match /users/$id

若再加入其他路由：

复制代码

/users/$id /users/$id/posts /users/profile /posts/$slug

树形结构演变为：

复制代码

root ├── users │ ├── $id => match /users/$id │ │ └── posts => match /users/$id/posts │ └── profile => match /users/profile └── posts └── $slug => match /posts/$slug

匹配 /users/123 的过程如下：

从 root 开始查找 "users" → 找到
进入 users 节点，查找 "123" → 匹配 $id 模式
发现该节点有路由 → 返回 /users/$id

算法复杂度的变化

性能大幅提升的根本原因，是复杂度的主导变量发生了改变。

旧方法：时间复杂度为 O(N)（N 为路由总数）
新方法：时间复杂度为 O(M)（M 为路径段数量）

换言之，匹配成本不再随路由数量线性增长，而只与路径深度有关。

假设一个拥有 450 条路由的应用，若每次段匹配能淘汰 50% 路由（极保守估计），则 9 次检查即可定位匹配（2⁹ > 450）。旧算法平均需检查 225 次。即便是这种简化模型，也意味着约 25 倍 提升。

实际测试结果：

小型应用（10 条路由）：约 60× 提升
大型应用（450 条路由）：约 10,000× 提升

最高记录可达 20,000×。

有趣的实现细节

性能优化往往不是"大刀阔斧"的重构，而是"避免千刀万剐"式的小损耗。以下是几个关键细节：

1. 反向栈处理（Backwards Stack Processing）

由于存在动态段、可选段和通配符，遍历时可能有多条路径候选。理想算法是深度优先搜索（DFS），优先处理高优先级路径，以便尽早返回结果。

通过倒序遍历候选并使用 .push() / .pop()（O(1) 操作），算法能高效地将最高优先级节点压栈并最先弹出。

复制代码

const stack = [{ /* initial frame */ }] while (stack.length) { const frame = stack.pop() // 先处理低优先级（通配符） for (let i = frame.wildcards.length - 1; i >= 0; i--) { if (matches(...)) stack.push({/* next frame */}) } // 再处理可选段 for (let i = frame.optionals.length - 1; i >= 0; i--) { if (matches(...)) stack.push({/* next frame */}) } }

2. 用位掩码（Bitmask）跟踪可选段

可选段意味着在遍历中需要记录哪些被跳过。若直接用布尔数组，会频繁复制和分配内存。

为避免这种开销，采用 位掩码（bitmask） 表示状态：

复制代码

00: 无段被跳过 01: 跳过第1段 10: 跳过第2段 11: 两段都跳过

写入状态：

复制代码

const next = skipped | (1 << depth)

读取状态：

复制代码

if (skipped & (1 << depth)) { /* segment skipped */ }

受 JavaScript 32 位限制，目前支持最多 32 段。

3. 复用 TypedArray 加速段解析

在构建 Trie 时，需要多次解析路径字符串。若每次都创建新对象，会造成大量临时分配。

解决方案是复用同一个对象甚至使用 Uint16Array，以减少内存分配并提升访问速度。

复制代码

let data let cursor = 0 while (cursor < path.length) { data = parseSegment(path, cursor, data) cursor = data[5] }

4. 最近最少使用缓存（LRU Cache）

路由树初始化后是静态的，同一路径的匹配结果永远一致，因此极适合缓存。

复制代码

const cache = new Map<string, MatchResult>() function match(pathname: string): MatchResult { const cached = cache.get(pathname) if (cached) return cached const result = performMatch(pathname) cache.set(pathname, result) return result }

为防止缓存无限增长，引入 LRU（Least Recently Used）机制，在容量达到上限时自动淘汰最久未使用的记录。虽然写入性能略低于普通对象，但可避免内存膨胀。

完整性能演进

虽然上文的 20,000× 提升令人震撼，但它主要来自大型应用的对比测试，且与旧的无缓存算法相比。事实上，团队此前已陆续引入缓存机制。下图展示了过去四个月算法演进中的性能提升趋势：

（图表：4 个阶段的匹配性能变化）

若考虑整个操作流程（如 buildLocation，包括匹配、路径构建、验证、中间件执行等），总体性能提升虽不如单独匹配部分夸张，但依然显著。

（图表：buildLocation 性能提升）

即便是最小型的应用，也能感受到改进。现在，路由匹配已不再是性能瓶颈。

进一步的优化方向

尽管团队暂时停止对路由匹配的优化，但仍有潜在改进空间：

子段节点（Sub-segment Nodes） ：将每个节点再细分为前缀、动态段和后缀，可更有效地剪枝。这是 Fastify 所用路由器 find-my-way 的方式。
分支压缩（Branch Compression）：将连续无分支的静态路径合并为单节点，减少树深度与栈帧数量。

这次改进的初衷并非"让它更快"，而是"让它更正确"。性能的大幅提升只是意外之喜。这样的结果在实际基准测试中极为罕见，因此，即便带着一点"挑选样本"的自豪，也值得被记录下来。