将 LiteLLM 迁移到 Rust —— 构建最快、最轻量的 AI Gateway

文章首发 猩猩程序员 公众号，欢迎关注

原文地址 docs.litellm.ai/blog/litell...

2026 年 6 月 22 日

Ishaan Jaffer（LiteLLM CTO）

在过去一年里，我们从用户和社区听到同一个反馈：他们想要一个更快、更轻、更容易部署的 AI Gateway。

我们听到了这个需求，并正在通过一个重大改变来解决它：

将 LiteLLM 的核心迁移到 Rust。

为什么要做这件事

随着 LiteLLM 在生产环境中的使用越来越广泛，我们越来越清楚地看到一些瓶颈：

高负载下的延迟波动（latency spikes）
Python 运行时带来的性能限制
内存泄漏与 OOM（Out of Memory）导致的服务崩溃风险
在大规模 AI 请求下难以保证稳定性

这些问题在 AI Gateway 这种基础设施级别的系统中尤为关键。

我们希望解决的是一个核心问题：

如何让 AI 请求路由层在高并发下仍然保持稳定、低延迟、可预测的性能表现？

为什么选择 Rust

Rust 提供了我们需要的三个关键能力：

1. 更低延迟（Low Latency）

Rust 编译型执行路径可以显著减少 Python runtime 的额外开销。

2. 更小内存占用（Memory Efficiency）

Rust 的内存模型更可控，可以避免 GC 或 Python 对象管理带来的不可预测内存增长。

3. 更高稳定性（Reliability）

在高并发场景下，可以避免 Python GIL 带来的瓶颈以及运行时抖动问题。

架构方式：渐进式迁移（Non-breaking Migration）

这次迁移不会破坏现有 API 或使用方式。

我们采用的是逐步替换核心组件的方式：

LiteLLM 的 Python SDK 保持不变
LiteLLM 的 Proxy Server 仍然兼容现有配置
Rust 组件作为"底层执行引擎"逐步接管核心逻辑

通过 PyO3（Python ↔ Rust 绑定）：

Python 仍然作为用户接口层存在，而 Rust 负责性能关键路径

迁移目标

我们最终希望实现：

Python SDK 完全兼容（无需修改现有代码）
Proxy Server 保持 API 不变
Rust 成为执行核心（hot path）
提供更低延迟、更高吞吐、更稳定的 AI gateway

性能目标与初步结果

在早期测试中，我们已经看到了显著提升：

吞吐量提升约 15 倍
内存使用减少约 11 倍
每请求延迟从约 7.5ms 降低到约 0.05ms
Rust 路径已实现 亚毫秒级（sub-1ms）开销

这些结果表明：

Rust 可以显著提升 AI gateway 在生产环境中的稳定性与性能上限。

迁移路线图

我们计划分阶段完成整个系统迁移：

阶段 1：核心路由层 Rust 化

请求调度
provider 路由
基础转换逻辑

阶段 2：增强能力迁移

retry / fallback 逻辑
负载均衡
caching 层优化

阶段 3：完整 Gateway Rust 化

Proxy Server 完全 Rust 化
Python SDK 仅作为客户端封装层

预计在 2026 年 12 月 1 日前完成整体迁移。

对现有用户意味着什么？

最重要的一点是：

不会有任何破坏性变化

你现有的使用方式保持不变：

Python SDK 仍然可用
API 不变
配置不需要修改
只是底层变得更快、更稳定

我们的长期愿景

LiteLLM 的目标一直很简单：

让所有 AI 模型都可以通过一个统一、可靠、高性能的接口来访问。

迁移到 Rust 并不是为了"换语言"，而是为了：

支撑更大规模 AI 应用
降低基础设施成本
提高系统稳定性
为 agent 时代的高并发推理做好准备

总结

这次 Rust 迁移的核心不是"重写"，而是：

保持兼容性
提升性能上限
消除 Python 在高负载场景下的结构性瓶颈

我们相信：

Rust 将让 LiteLLM 成为更快、更轻、更可靠的 AI Gateway。

文章首发 猩猩程序员 公众号，欢迎关注