在人工智能技术全面渗透产业的浪潮中,大语言模型(LLM)的规模化推理部署已成为企业智能化升级的核心诉求。然而,LLM推理与生俱来的有状态特性、复杂并行计算需求与多样化部署场景,使其长期受制于传统架构的性能瓶颈与运维困境。Kthena作为云原生推理领域的开源标杆项目,以Kubernetes为底层基座,重新定义了LLM推理的工作负载编排、网关调度与资源管理范式,为千亿参数级模型的企业级落地提供了高效、灵活、可扩展的解决方案。本文将深入剖析LLM推理的核心痛点,系统解读Kthena的设计理念、核心组件与实现细节,并通过性能验证展现其技术优势,为大模型推理的工程化实践提供参考。
一、LLM推理的技术困境与行业挑战
(一)LLM推理的独特技术属性
与传统无状态微服务不同,LLM推理的技术特性决定了其部署架构的复杂性,具体表现为:
其一,有状态推理的核心诉求。LLM推理过程中生成的KV Cache(键值缓存)是维持推理连续性的关键数据,其生命周期与推理请求强绑定,直接影响推理性能KV Cache命中率每提升一个百分点,都能显著降低重复计算带来的资源消耗。这与微服务"请求独立、无状态流转"的特性形成本质区别,对调度与缓存管理提出了更高要求。
其二,推理引擎的多元化格局。当前行业内主流的推理引擎包括vLLM、SGLang、Triton、TGI等,不同引擎在吞吐量优化、功能支持、模型适配性等方面各有侧重:vLLM以高吞吐量著称,SGLang擅长动态提示词处理,Triton支持多框架集成,TGI则在开源模型适配性上更具优势。企业需根据业务场景选择合适的引擎,或构建多引擎架构,这无疑增加了技术集成与运维难度。
其三,超大参数模型的并行计算依赖。对于百亿级、千亿级参数的大模型,单节点硬件资源已无法满足推理需求,必须采用张量并行(TP)、流水线并行(PP)、数据并行(DP)、专家并行(EP)等多种并行计算组合方式,通过多机集群实现分布式部署。这种复杂的并行架构要求节点间数据传输低时延、高可靠,对网络拓扑与调度策略提出了严苛要求。
其四,PD分离架构的性能增益与技术挑战。预填充(Prefill)与解码(Decode)分离的PD架构已成为提升推理性能的主流选择:Prefill阶段负责处理输入提示词并生成初始KV Cache,Decode阶段基于KV Cache持续生成输出令牌,两者分离可避免相互干扰,显著提升吞吐量与时延服务等级目标(SLO)。但PD分离也带来了新的问题:Prefill与Decode角色间需要实时传输KV Cache,对网络传输效率与稳定性的要求大幅提高。
(二)LLM推理工作负载编排的核心痛点
传统基于Kubernetes的编排方案无法适配LLM推理的特性,导致部署与运维面临多重困境:
一是多组件依赖导致维护成本高企。现有部署形态多采用"顶层运算符(Operator)+ 轻量级工作负载封装(LWS)"架构,形成"Wrapper -> LWS -> StatefulSet -> Pod"的多层自定义资源(CR)依赖链。以2P4D(2个Prefill节点、4个Decode节点)的PD分离部署为例,需创建多个LWS实例,且N个PD组需对应2*N个LWS,多层组件的配置与维护成本极高。
二是调度策略难以满足复杂需求。顶层Operator需要感知LWS创建的子资源,而Gang调度的缺失导致多个LWS实例无法实现原子化部署,容易出现部分节点调度成功、部分失败的资源浪费情况。同时,拓扑感知调度需求无法满足:同一PD组的工作节点(Worker)需部署在同一网络性能域(如超节点),同一Prefill或Decode角色组内的Worker因涉及频繁数据交互,对网络带宽与时延的要求更为严格,传统调度器缺乏此类层级化拓扑感知能力。
三是部署形态灵活性不足。不同业务场景对推理架构的需求差异显著:长文本推理需侧重吞吐量优化,实时交互场景需降低首次令牌生成时间(TTFT),而混合场景则要求Prefill与Decode比例可动态调整。传统编排方案难以灵活适配这些需求,导致资源利用率与业务体验难以平衡。
(三)LLM网关的技术瓶颈
网关作为LLM推理服务的入口,承担请求分发、负载均衡、限流控制等核心功能,但传统微服务网关架构无法适配LLM推理的特殊需求:
第一,负载感知与调度能力缺失。微服务请求的时延与资源消耗差异较小,轮询(RR)、随机(Random)等传统负载均衡算法基本能满足需求。而LLM推理请求的资源消耗与提示词长度、输出令牌数量强相关,不同请求的时延差异可能达数倍甚至数十倍,传统算法无法感知推理引擎的实际负载,容易导致节点过载与资源闲置并存。同时,KV Cache命中率直接影响推理性能,但传统网关不具备KV Cache感知能力,无法根据缓存状态调度请求,导致性能下降。
第二,功能适配性不足。LLM推理需要基于令牌(Token)粒度的限流控制,而非简单的请求数限制,传统网关的限流机制难以满足。此外,多模型路由、PD分组感知调度、语义缓存等高级功能的缺失,也限制了网关对复杂业务场景的支撑能力。
第三,现有方案运维复杂。行业内普遍采用Envoy扩展插件实现LLM网关功能,但这种方案存在明显弊端:复用Envoy的流量治理能力会引入历史技术债务,依赖过多导致运维复杂度提升;LLM扩展插件会短路Envoy原有的负载均衡流程,请求与响应均需绕行扩展处理器,导致链路过长、故障定位困难;同时,该方案仅支持单xPyD分组调度,无法识别PD组归属,也不支持多模型路由,难以满足复杂场景需求。
二、Kthena的设计理念与核心架构
针对LLM推理的技术痛点,Kthena以"云原生原生适配、推理特性深度优化、全生命周期智能管理"为设计理念,构建了一套包含路由网关(Router)、控制平面管理器(Controller Manager)、模型服务编排(ModelServing)与模型增强器(ModelBooster)的全栈架构,实现了推理服务的高性能部署与高效运维。

(一)Kthena的核心设计目标
Kthena的整体目标是为云原生环境重新定义大语言模型智能推理,核心设计目标包括:
- 能力开箱即用:内置分布式推理、PD分离等最佳部署范式,支持主流推理引擎无缝集成;
- 性能极致优化:通过拓扑感知调度、KV Cache感知调度等技术,提升吞吐量、降低时延与TTFT;
- 运维简化高效:简化多层组件依赖,提供标准化配置与自动化运维能力;
- 灵活扩展适配:支持多模型路由、异构硬件部署、动态弹性扩缩容,适配多样化业务场景;
- 生态兼容互通:基于Kubernetes构建,兼容云原生生态工具,支持与第三方MaaS服务集成。
(二)Kthena的核心组件架构
Kthena采用分层设计思想,四大核心组件协同工作,实现推理请求的接收、调度、执行与资源优化:

- Kthena Router:轻量高性能的网关组件,作为推理服务的统一入口,承担请求分发、负载均衡、限流控制、认证授权等功能,支持模型感知路由、KV Cache感知调度与多模型集成;
- Kthena Controller Manager:基于Kubernetes控制平面扩展,包含ModelServing控制器、AutoScaler等多个子控制器,负责推理工作负载的编排、生命周期管理、弹性扩缩容与调度策略执行;
- ModelServing:定义LLM推理工作负载的部署范式,通过三层架构支持原生部署、PD分离部署及复杂并行计算架构,实现工作负载的精细化管理;
- ModelBooster:负责模型元数据管理、模型参数预热、LoRA(低秩适配)适配器动态加载与卸载,提升模型启动速度与资源利用率。
(三)核心组件详细解析
1. ModelServing:重构推理工作负载编排范式
ModelServing是Kthena解决编排痛点的核心组件,通过三层架构设计(ModelServing -> ServingGroup -> Role),实现了复杂推理架构的简化管理与灵活适配:
- 三层架构定义 :
- ModelServing:顶层资源,代表一个完整的推理服务,可包含多个ServingGroup,支持整体弹性扩缩容与版本管理;
- ServingGroup:推理实例组,是能够独立完成一次推理服务的最小单元,每个ServingGroup具有唯一编号(0,1,2...N-1),支持滚动升级与故障恢复;
- Role:定义推理实例的角色(如Prefill、Decode),每个Role对应一组具有相同功能的工作节点,等同于传统架构中的单个LWS实例,遵循原子调度原则。
这种架构支持多种部署形态:原生部署场景下,一个ServingGroup可仅包含一种Role;PD分离部署场景下,一个ServingGroup可包含Prefill与Decode两种Role,支持独立伸缩与动态比例调整;复杂并行计算场景下,可通过多Role组合实现TP/PP/DP/EP等并行策略的灵活配置。
-
调度策略优化 :
Kthena通过集成Volcano调度器,实现了Gang调度与拓扑感知调度的深度融合:
- 严格Gang调度:对于关键业务场景,要求ServingGroup内的所有Role及其工作节点必须同时调度成功,确保推理服务的完整性。例如2P4D架构需12个Pod协同工作,严格Gang调度可避免部分节点调度失败导致的资源浪费;
- 宽松Gang调度:对于非核心业务场景,允许最小化部署(如至少1P1D,4个Pod),其余节点后续补充调度,平衡服务可用性与资源利用率;
- 拓扑感知调度:通过超节点(HyperNode)抽象标准化集群拓扑,将网络性能相近的节点划分为同一超节点。同一Role的Worker需调度到同一超节点内(如同一Leaf交换机管理的节点),以降低数据传输时延;而Prefill与Decode角色间因对网络要求相对宽松,可跨超节点部署。
-
部署与运维能力 :
ModelServing支持PD分离部署的精细化配置,通过自定义资源指定Prefill与Decode角色的副本数、资源需求等参数,例如:
yamlapiVersion: workload.serving.volcano.sh/v1alpha1 kind: ModelServing metadata: name: sample namespace: default spec: schedulerName: volcano replicas: 1 template: gangpolicy: minRoleReplicas: prefill: 2 decode: 2 roles: - name: prefill replicas: 4 - name: decode replicas: 4这种配置支持Prefill与Decode角色独立扩缩容,可根据业务场景动态调整比例,适配长短句混合、实时推理等复杂需求。在版本升级方面,Kthena支持基于ServingGroup粒度的滚动升级,通过Partition参数控制灰度比例,类似StatefulSet的升级机制,确保升级过程中服务不中断,且支持快速回滚。
2. Kthena Router:智能调度与流量治理核心
Kthena Router作为轻量、高性能的数据平面,彻底解决了传统网关的技术瓶颈,核心能力包括:
-
模型感知的智能路由 :
Router能够实时采集推理引擎的运行指标(GPU利用率、KV Cache使用率、请求队列长度等),结合ModelRoute规则实现智能分发。例如,根据用户类型将 premium 用户请求路由到DeepSeek-R1-7B模型,普通用户请求路由到DeepSeek-R1-1.5B模型;同时支持自部署模型与OpenAI、Anthropic等第三方MaaS服务的统一接入,实现流量集中管理。
-
高级调度算法集成 :
Router内置多种调度算法组合,针对LLM推理特性优化性能:
- KV Cache感知调度:根据节点的KV Cache使用状态分配请求,提高缓存命中率,缩短推理时延;
- 前缀缓存感知调度:对于具有相同前缀的请求,优先调度到已缓存该前缀KV数据的节点,减少重复计算;
- 公平调度:基于令牌用量的优先级机制,优先处理令牌消耗小的请求,避免个别大请求长时间占用资源,保障整体服务公平性;
- 最小请求数调度:结合负载状态,将请求分发到当前处理请求最少的节点,平衡节点负载。
-
精细化流量控制与简化配置 :
支持Token级别的本地与全局限流,能够基于过去时间窗内的Token使用量限制单个用户或租户的资源占用,符合MaaS服务计费规则。同时,通过ModelRoute与ModelServer两种自定义资源简化配置流程:ModelRoute定义路由规则,ModelServer绑定后端工作负载与模型信息(如模型名称、推理引擎类型、服务端口等),配置简洁易懂,运维成本显著降低。例如:
yamlapiVersion: networking.serving.volcano.sh/v1alpha1 kind: ModelRoute metadata: name: deepseek-multi-models spec: modelName: "deepseek-multi-models" rules: - name: "premium" modelMatch: headers: user-type: exact: premium targetModels: - modelServerName: "deepseek-r1-7b" - name: "default" targetModels: modelServerName: "deepseek-r1-1-5b"
3. 弹性扩缩容与资源优化能力
Kthena基于ModelServingController与AutoScaler组件,实现了同构与异构相结合的弹性扩缩能力,最大化资源利用率与业务体验:
-
同构扩缩容:类似Kubernetes Pod Autoscaler(KPA),支持稳定(Stable)与紧急(Panic)两种模式。稳定模式基于预设的弹性策略(AutoScalingPolicy)与监控指标(如GPU利用率、请求队列长度),平缓调整ModelServing的副本数;紧急模式在突发流量场景下快速扩容,确保服务SLO不受影响。
-
异构扩缩容:支持同一模型部署在不同类型的加速卡(如GPU、NPU)上,且可使用不同的推理引擎。通过整数求解器,根据不同加速卡的资源成本与业务处理能力,规划最优的硬件资源配置------例如将非核心业务请求调度到成本较低的加速卡,核心业务请求使用高性能加速卡,实现成本与性能的最优平衡。
4. ModelBooster:模型管理与性能增强
ModelBooster针对大模型部署的效率痛点,提供了模型预热、LoRA管理与指标标准化等核心能力:
-
模型预热:大模型参数量巨大,实时下载模型参数可能导致启动时间长达数分钟,且浪费计算资源。ModelBooster支持模型预下载功能,提前将常用模型参数缓存到节点本地,实现模型实例的快速启动,启动时间从分钟级缩短至秒级。
-
LoRA生命周期管理:通过API接口自动实现LoRA适配器的热加载与卸载,无需重启推理服务即可切换不同的LoRA适配器,支持模型的灵活适配与快速迭代,大幅提升开发与部署效率。
-
指标标准化:不同推理引擎的原生监控指标存在差异(如vLLM与SGLang的指标定义不同),导致监控与调度难以统一。ModelBooster的Runtime组件将不同引擎的监控数据转化为统一格式(如GPU利用率、推理吞吐量、时延、KV Cache命中率等),为弹性扩缩容、智能调度、故障排查提供统一的数据支撑。
三、Kthena的性能验证与技术优势
(一)性能测试结果
为验证Kthena的技术优势,基于长系统提示场景(4096 tokens)进行对比测试,分别采用三种调度策略:"最少请求 + KV Cache感知"、"最少请求 + 前缀缓存"与随机调度(基线),测试结果如下表所示:
| 调度策略配置 | 吞吐量(Tokens/秒) | 端到端时延(秒) | 首次令牌生成时间(TTFT,秒) |
|---|---|---|---|
| 最少请求 + KV Cache感知 | 32.22 | 9.22 | 0.57 |
| 最少请求 + 前缀缓存 | 23.87 | 12.47 | 0.83 |
| 随机调度(基线) | 11.81 | 25.23 | 2.15 |
测试结果显示,Kthena的调度策略相比传统随机调度具有显著的性能提升:
- 吞吐量提升约2.73倍:"最少请求 + KV Cache感知"策略的吞吐量达到32.22 Tokens/秒,远超随机调度的11.81 Tokens/秒,单位时间内处理能力大幅增强;
- 时延显著降低:端到端时延从25.23秒降低至9.22秒,降幅超过60%;首次令牌生成时间(TTFT)从2.15秒缩短至0.57秒,降低约73.5%,极大提升了实时交互场景的用户体验;
- 资源利用率优化:通过KV Cache感知与拓扑感知调度,避免了资源闲置与数据传输瓶颈,GPU等计算资源的利用率提升约40%,降低了单位推理请求的资源成本。
(二)核心技术优势
1. 极致的性能优化
Kthena通过多重技术创新实现性能突破:KV Cache感知调度提高缓存命中率,拓扑感知调度降低数据传输时延,PD分离部署优化Prefill与Decode协同效率,模型预热缩短启动时间。这些技术的组合应用,使Kthena在长文本推理、实时交互等场景下均能保持高性能表现,远超传统架构。
2. 高度的灵活性与兼容性
Kthena支持业界主流的推理引擎(vLLM、SGLang、Triton、TGI等),无需修改引擎代码即可集成,企业可根据业务需求自由选择;同时支持多种部署形态与并行计算策略,从单节点部署到多机分布式部署,从原生推理到PD分离架构,能够适配不同规模、不同场景的推理需求。此外,Kthena基于Kubernetes构建,可无缝集成云原生生态的监控(Prometheus)、日志(ELK)、告警(Alertmanager)等工具,实现全链路可观测性。
3. 简化的运维与降低的成本
Kthena通过三层架构(ModelServing -> ServingGroup -> Role)简化了工作负载的管理复杂度,减少了多层自定义资源的依赖;支持滚动升级、故障自动恢复、弹性扩缩容等自动化运维能力,降低了人工操作成本;异构扩缩容与资源优化功能,可根据业务需求动态调整硬件资源配置,在满足性能要求的同时降低运行成本。
4. 强大的扩展能力
Kthena的设计具有良好的扩展性:支持多模型路由与第三方MaaS服务集成,满足复杂业务场景的流量管理需求;LoRA动态加载与卸载支持模型的灵活适配,无需重启服务即可完成迭代;Role API层面可兼容LWS API,降低现有用户的迁移成本。
四、Kthena的未来发展方向
根据Kthena的技术路线图,未来将在调度智能化、网关功能增强、编排精细化、弹性扩缩容精准化等方向持续优化:
(一)调度策略的智能化升级
未来将引入机器学习算法,实现调度策略的自适应性优化:通过分析历史请求数据与推理性能数据,自动调整调度参数;预测流量变化并提前扩容,进一步提升服务SLO与资源利用率;增强公平调度能力,支持基于用户等级、业务优先级的精细化资源分配,满足多租户场景下的隔离需求。同时,优化负载均衡算法,支持更精准的负载感知,消除推理引擎排队引发的KV Cache失效问题。
(二)网关功能的全面增强
Kthena Router将进一步兼容Gateway API,实现与云原生服务网格的深度融合,支持熔断、重试、流量镜像等更丰富的流量治理功能;增强对公共MaaS服务的代理能力,实现自部署模型与第三方服务的无缝切换与负载分担;引入语义缓存功能,基于请求的语义相似度进行缓存匹配,进一步提升缓存命中率,降低推理成本;通过多Listener设计,实现同名模型的隔离部署,满足多环境、多租户的资源隔离需求。
(三)编排能力的精细化与易用性提升
在编排层面,将实现Group与Role的深度融合,支持更精细的Gang调度与拓扑亲和性调度,满足超大规模模型推理的复杂需求;Role API层面将兼容LWS API,降低现有用户的迁移成本;ModelBooster组件将提供一键部署主流大模型的最佳实践模板,简化模型部署流程,让非专业人员也能快速搭建高性能的推理服务。
(四)弹性扩缩容的精准化
弹性扩缩容将支持Prefill与Decode角色的独立扩缩,根据两种角色的负载状态分别调整副本数,实现更精准的资源配置;优化异构扩缩容的决策算法,结合实时资源价格与业务性能需求,动态调整不同类型加速卡的资源分配比例,实现成本与性能的最优平衡;增强弹性扩缩容的稳定性,避免频繁扩缩导致的服务波动。
五、结语
大模型推理的企业级落地,不仅需要算法层面的优化,更依赖工程化架构的支撑。Kthena作为云原生推理领域的开源标杆项目,通过深度融合LLM推理特性与云原生技术优势,成功解决了传统架构在编排、调度、网关、弹性等方面的核心痛点。其三层编排架构、智能路由网关、弹性扩缩容与模型增强能力,构建了一套高性能、高可靠、低成本的推理解决方案。
从性能数据来看,Kthena能够将推理吞吐量提升2.73倍以上,大幅降低时延与首次令牌生成时间,为大模型的规模化应用奠定了坚实基础。同时,Kthena的灵活性、兼容性与简化运维特性,使其能够适配多样化的业务场景与技术选型,降低企业的部署与迁移成本。