AI推理:如何实现吞吐翻倍、时延降90%与GPU资源节省26%?

作者:马国忠

引言:AI规模化落地,推理系统面临全新挑战

全球领先的市场研究和咨询公司IDC预测,到2028年,75%的新 AI 工作负载将实现容器化,从而显著提升模型与工作负载更新的速度、一致性与安全性。容器化技术将成为 AI 推理时代的"默认交付形态"。当前随着大模型技术快速演进与业务场景的深度融合,AI业务对推理基础设施的需求呈现爆发式增长。在早期小流量场景下,手动部署与定制化方案尚可应对;然而当模型规模、并发请求与业务复杂度攀升至新高度时,传统推理系统在以下四个主要方面逐渐暴露出瓶颈。

  1. 稳定性不足

单点故障风险:手动部署的静态架构缺乏多副本与故障自愈机制,单节点宕机易引发服务中断;

负载不均衡:缺乏智能流量调度,高并发时部分节点过载导致响应延迟,低负载时资源闲置;

故障恢复滞后:依赖人工排查与重启,恢复周期长,影响业务连续性。

2.资源利用率低下

静态资源分配:固定规模的GPU集群无法适应流量波动,高峰时段资源争抢,低谷期GPU闲置率超40%;

缺乏弹性机制:无法根据请求队列长度、KV缓存利用率等指标动态扩缩容,导致周级别GPU卡时浪费超5000+。

3.推理性能瓶颈

混合请求排队:长、短文请求混合处理时,短文首字时延(TTFT)因排队激增90%以上;

缓存复用率低:多副本场景下相同前缀请求随机调度,重复计算导致KV缓存命中率不足60%;

硬件拓扑未优化:跨交换机部署引发传输延迟,人工调整拓扑亲和性成本高且易出错。

4.定制成本高昂

多引擎适配复杂:vLLM、SGLang等引擎需独立开发接入层,版本迭代与兼容性维护成本攀升;

运维依赖人工:从部署、监控到故障修复全流程手动操作,人力成本占比超30%,且易引入人为错误。

为此,京东云结合实际业务需求与技术趋势,全面拥抱云原生技术栈,积累了丰富的云原生与高性能推理经验。自主研发了新一代云原生AI推理框架。 推动推理系统完成了一次体系化升级,实现了从手动部署到全场景AutoScale,从资源浪费到GPU利用率最大化。

流量高峰自动扩容、低谷自动缩容,GPU卡时节省高达26%;

智能流量调度与KV缓存复用,最高提升吞吐124%,首次生成时延TTFT降低90%;

具备多级高可用能力,支持流量隔离、故障自愈与深度可观测;

模型量化、引擎调优、算子开发等多项优化,推理引擎单点性能呈现局部领先优势。

详细了解一套生产级分布式AI训练推理平台(JoyBuilder)的云原生改造全纪实。京东云云原生AI推理框架。

一、系统架构设计:面向生产级的高性能云原生推理平台

设计理念:

我们遵循三大核心设计原则,确保系统长期迭代的灵活性:

1.解耦与组合 各模块尽量松耦合,优先复用开源成熟组件,同时避免被社区绑定,保留核心模块的可替换能力。

2.扩展性优先 支持以插件化方式集成智能调度算法(流量调度、扩缩容决策、Prefix Cache打分等);容器编排能力可扩展,目前已支持跨机部署与基于角色的调度策略。

3.引擎无感接入 目前可同时支持vLLM、SGLang等主流推理引擎,最终实现任意推理引擎的低成本接入。

系统架构:

模块详解:

1. 智能流量调度网关

基于云原生Gateway API与Inference Extension框架,我们构建了支持多引擎、高可用、高扩展的智能推理网关,支持多层次调度策略:

核心能力 说明
长短文分桶推理 流量调度 网关基于高效的长短文分桶算法 ,构建跨模型集群的分流调度,显著降低短文TTFT(首字生成时延);
前缀缓存感知KV复用流量调度 面向不同模型上下文特征,基于 HashTrie 算法 构建集群内全局pod的近似前缀缓存画像,支持prefix cache的亲和调度,有效降低推理 TTFT(首字生成时延);
多维负载均衡流量调度 毫秒级实时采集KV Cache Utilization、Waiting Queue等server load指标,支持load aware 亲和调度;
交换机拓扑感知流量调度 为减少PD group组内KV cache传输的耗时,构建网络拓扑感知,支持全局最优prefill + 局部最优decode的网络亲和调度
多引擎PD分离流量编排调度 已支持vLLM (PD串行)、SGLang(PD异步并行) 异构引擎无差别流量调度
多LoRA动态流量调度、模型切换的流量调度 实现不同引擎多LoRA的动态装、卸载,集成LoRA-aware 的动态流量感知调度能力;
精确的前缀感知Cache-aware流量调度 实时订阅引擎侧KV Events Metrics,构建精确的前缀缓存画像,实现更高效的prefix cache亲和调度,进一步降低推理TTFT;
基于时延预测的SLO-aware 流量优先级感知调度 利用延迟预测来估算每个请求在每个可用节点上的首次生成时间(TTFT)和每个输出令牌时间(TPOT),实现基于时延预测的SLO-aware智能调度;

2. 容器编排与资源调度

部署灵活:PD分离部署,具有Group和Pool两种模式,实现弹性扩缩容与拓扑感知调度。

高可用机制:多副本部署,避免单点故障。同时支持故障时自动摘流与容器自愈,保障服务持续可用,用户无感知。

核心能力 说明
容器编排 根据推理引擎工作特点,基于容器之间的协作关系(Kimi多容器跨机推理、PD分离架构等),将各个推理引擎容器一定的组织方式部署成一组Pods,并联动服务发现、重启策略。
GPU资源调度 自动将各个新创建的Pod调度到具有足够GPU资源的机器节点。
拓扑感知调度 Kimi跨机推理, TP16部署的2台机器保证在同一个交换机下;PD分离部署,协作关系的P和D在同一个交换机下。
优先级调度和抢占 支持在线服务和离线任务的混合调度,高优的在线服务可以抢占低优任务的GPU资源。

3. 系统稳定性与可观测

•集成流量镜像、全链路告警与主备值班协同机制。

•通过网关大盘、调度模块监控、模型性能面板等多层次观测体系,实现问题快速发现与定位。

4. 引擎优化与性能突破

针对MoE、多模态等模型特点,通过算子优化、引擎调优与量化等手段,在多项关键性能指标上实现行业领先。

二、关键场景落地与收益量化

1. 长短文混合调度

问题 :长、短文请求混合排队时,短文TTFT急剧上升,集群吞吐下降。 方案:通过长短文分桶与跨集群调度,实现长短文分离处理。

收益(以Kimi-K2与DeepSeek-V3压测为例):

Kimi-K2:短文TTFT降低90.97%,吞吐提升124.46%;长文吞吐提升33.89%,集群整体吞吐提升67%。

DeepSeek-V3:短文TTFT降低79.09%,吞吐提升36.7%;长文吞吐提升14.34%,集群整体吞吐提升21.82%。

2. KV Cache全局感知的流量调度

问题 :多副本场景下相同前缀请求被随机调度,导致每个实例都重复计算并缓存相同前缀。 方案:持续刻画更新集群级KV Cache缓存画像,实现前缀匹配的智能路由,KV Cache高效复用。

收益

•DeepSeek-V3场景下,集群吞吐提升29.9%,首Token时延TTFT降低28.7%;

•Kimi-K2场景下,KV Cache命中率整体提升20%~30%。

旧系统: 均值 60%、22%、12% 云原生系统:均值 90%、45%、22%

3. 全场景自动弹性伸缩

问题 :夜间或周末的流量低谷期GPU资源闲置严重。 方案:通过多种弹性部署模式并基于排队长度与KV使用率等多项指标,实现全场景自动扩缩容。

收益

•周级别节省GPU卡时5000+,资源利用率提升26%;

占用卡量: 随负载 弹性扩缩

4. 硬件拓扑亲和调度

问题 :跨交换机部署导致性能下降;人工修正部署成本高,维护压力大。 方案

•通过节点标签与亲和性规则,实现交换机级自动拓扑亲和调度;

•Router实现按组进行PD配对流量调度。

收益

•组容器间通信不跨交换机,数据高效传输,全程自动化,无需人工干预,保证服务SLA。

5. 稳定性与业务连续性

问题: 容器故障后,因分发机制导致持续的客户影响。故障恢复强依赖人工,导致故障时间长,修复难度大。

方案: 通过实时健康监测,快速感知故障容器,进行隔离。启动新副本,实现故障自愈。

收益:

•实现自动隔离,自动自愈,无需人工干预,节点人力成本,提高用户体验。

6.推理引擎无感接入

问题 :多引擎支持成本高,定制化开发量大,维护成本高。 方案:构建统一推理引擎调度接入层,支持vLLM、SGLang等不同推理引擎一键接入。

收益:

•推理引擎无感快速接入。

•降低开发与维护成本。

三、收益总结

京东云云原生AI推理框架通过多维度调度与系统级优化,显著提升了推理效率与资源利用率。短文与长文吞吐均有大幅增长,首 token 延迟明显降低,并结合自动弹性扩缩容与 KV Cache 感知调度,进一步提升集群吞吐与缓存命中率,同时节省可观的 GPU 卡时成本。在此基础上,引入硬件拓扑亲和调度,实现更高效的自动化部署与调度,降低大规模集群运维压力;配合故障自愈、高可用机制与更精细的可观测体系,使系统运行更加稳定、可控、易排障。通过针对引擎瓶颈的持续优化,不同模型场景下的吞吐能力均得到明显增强。

能力 量化结果与效益
长短文调度 吞吐:短文提升120%+,长文提升30%+ TTFT:短文降低90%
自动弹性扩缩容 GPU卡时:节省GPU卡时约26%
KV Cache感知调度 提升KV Cache命中率:增长约20%~30% TTFT:降低29% 集群吞吐:增长30%
硬件拓扑亲和调度 实现自动化部署与调度,降低大规模集群运维成本
故障自愈与高可用 自动检测故障、自动恢复故障,减少对人工的依赖,更具可控性
可观测性 具备更细致的监控告警体系、提升故障发现和排查效率
引擎瓶颈优化 DS-MoE模型吞吐提升9%,多模态模型吞吐最高提升39%

四、客户案例

客户背景

客户原系统面临AI规模化落地的挑战,在推理系统的稳定性、性能和资源利用率方面遇到了明显瓶颈。京东云通过帮助客户升级至云原生架构,成功改造了其推理系统,实现显著的性能提升和资源节约。见证了新系统如何带来切实的业务效益。

解决方案

京东云通过云原生AI推理框架 对客户原78台节点进行逐步云原生改造,在不到一个月时间内从最初的2%切流比率提升到达到40%,实现对用户AI推理系统的云原生重构,助力企业实现高效、稳定、低成本的AI规模化落地。核心方案 包括:采用智能流量调度 技术,通过长短文分桶、KV缓存复用及拓扑感知调度;基于流量波动的弹性扩缩容 机制;高可用架构 通过多副本部署与故障自愈保障服务连续性;支持vLLM、SGLang等主流引擎的无感接入硬件拓扑优化实现跨交换机亲和调度,减少传输延迟。

客户收益

GPU吞吐能力:切换云原生系统后,GPU吞吐提升幅度达74%。这一增强使客户在高负载情况下依然能够维持高效的模型推理速度。

限流数量:云原生AI推理框架系统将需要限流的请求显著减少82%,这意味着更多的客户请求在高峰时段得到及时响应,提高了用户体验和满意度。

整体 旧版系统 云原生系统 收益
机器规模 78 (100%) 50 (64%) 28 (36%) -
请求数量 36671 (100%) 17091 (47%) 19580 (53%) -
GPU吞吐 (TGS) - 183 319 提升74%
限流数量 687 ( 1.87%) 570 (3.3%) 117 (0.59%) 减少82%
备注: 1、数据来源基于Kimi-K2-instruct-0905模型。

客户对于系统的云原生改造表示高度认可:"云原生AI系统的导入,让我们不仅在资源利用上实现了显著的性价比提升,同时在关键业务高峰期的响应能力也大大增强,显著减少了因限流带来的服务瓶颈问题。"

五、未来展望

京东云将继续优化云原生AI推理框架,致力于为客户提供更智能、高效、稳定的AI基础设施。通过在各个行业和应用场景中的深化应用,我们的客户可以持续依赖这一平台,实现业务的长期可持续发展。

这个成功案例不仅展示了京东云云原生AI推理框架系统的技术优势,也为其他企业提供了一个可借鉴的成功模型,期待更多客户从中获益。

京东云云原生AI推理框架的研发升级并非一蹴而就。从架构设计、配置调试再到全量上线,每一步都围绕着业务价值、性能提升与运维提效展开。我们相信,只有将稳定性、性能、成本三者统筹兼顾的基础设施,才能真正支撑AI业务规模化、可持续地落地与增长。如您有类似场景或技术交流需求,欢迎随时联系我们。

相关推荐
NineData1 天前
从个人开发到企业专属集群,NineData 的产品矩阵怎么做的?
运维·数据库·程序员
集成显卡1 天前
别局限于 Oh-My-Posh,试试 Rust 编写的 starship:极简超快且无限可定制的命令行提示符
程序员·代码规范·命令行
陈随易1 天前
我也曾离猝死很近
前端·后端·程序员
SimonKing1 天前
IntelliJ IDEA 配置与插件全部迁移到其他盘,彻底释放C盘空间
java·后端·程序员
程序员cxuan2 天前
说点掏心窝子的话
后端·程序员
本末倒置1832 天前
告别"话痨"提交记录!Git 压缩 Commit 实战指南,代码洁癖党狂喜
面试·程序员·代码规范
程序员鱼皮2 天前
刚刚,微信终于能用 OpenClaw 了!安卓 iOS 都行,附保姆级教程
ai·程序员·编程·ai编程·openclaw
孟陬2 天前
国外技术周刊第 2 期 — 本周热门 🔥 YouTube 视频 TED 演讲 AI 如何能够拯救(而非摧毁)教育
前端·后端·程序员
陈随易2 天前
深度拆解技术架构的三大鸿沟:企业级Claw vs OpenClaw的工程差异
前端·后端·程序员
得物技术2 天前
Claude Code + OpenSpec 正在加速 AICoding 落地:从模型博弈到工程化的范式转移|得物技术
程序员·ai编程·claude