大型语言模型(LLMs)变得越来越复杂,需求也越来越大,这给那些想要提供既灵活又经济的模型即服务(MaaS)的公司带来了不小的挑战。LLMs在各种应用中迅速流行起来,导致输入输出的长度、到达的频率和服务需求变化很大。要平衡资源,满足这些多样化的需求,已经成为了一个关键的问题。要实现这种平衡,就需要复杂的策略来满足不同的服务水平目标(SLOs),对于延迟和吞吐量的要求。而且,传统的LLM服务架构通常都假设有足够的资源来处理所有的请求,但随着需求的增加,特别是在高峰时段,这变得越来越难。
主要的挑战是在不牺牲延迟的情况下,尽可能地提高吞吐量,尤其是在运营成本上升和GPU资源有限的情况下。为了解决这些问题,月之暗面科技开发了一种新的架构。
月之暗面科技开源其核心推理架构:月饼
月之暗面科技已经正式开源了他们的核心推理架构,叫做月饼(Mooncake)。月饼的目标是解决LLM服务中的关键可扩展性和效率挑战。月之暗面科技采用了以KVCache为中心的解耦架构,这使得月饼与传统的LLM服务平台有所不同。月饼的第一个开源组件,叫做传输引擎,现在已经在GitHub上可用了,未来还会发布更多的组件。(GitHub链接:https://github.com/kvcache-ai/Mooncake)
月饼的核心在于它以KVCache为中心的处理计算工作负载的方法。通过分离预填充和解码集群,月饼可以动态优化资源,利用那些未充分利用的CPU、DRAM和SSD资源进行高效的缓存。这种分离对于解决LLM服务阶段的多样化计算特性非常关键。开源月饼的决定反映了对透明度和社区驱动的LLM可扩展性改进的承诺。
月饼的底部是传输引擎,它支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠和灵活的数据传输。与gloo(分布式PyTorch使用的)和TCP相比,月饼传输引擎具有最低的I/O延迟。
基于传输引擎,他们实现了P2P Store库,支持在集群中的节点之间共享临时对象(例如,检查点文件)。它避免了单台机器上的带宽饱和。
此外,他们还修改了vLLM,以便集成传输引擎。它通过利用RDMA设备,使预填充-解码解耦更高效。
未来,他们还计划在传输引擎的基础上构建月饼存储,它支持池化的KVCache,以实现更灵活的P/D解耦。
技术细节
月饼利用以KVCache为中心的预填充-解码(PD)分离技术和存储-计算解耦架构,显著提高了月之暗面科技的LLM服务Kimi的推理吞吐量。KVCache机制是优化吞吐量和延迟的核心。月饼不是让GPU资源参与模型服务的所有方面,而是将KVCache使用与计算任务隔离开来,允许它由未充分利用的硬件如CPU和SSD来管理。
月饼的架构将LLM服务分为两个阶段------预填充和解码。在预填充阶段,可重用的缓存被转移到预填充实例,优化了第一个令牌的生成,同时减少了冗余计算。然后,在解码阶段,KVCache被聚合,允许高效的批处理。这种分离带来了显著的性能提升。
通过实施基于预测的早期拒绝策略,月饼还有助于在高峰请求期间防止系统过载。这种方法在维持时间到第一个令牌(TTFT)和服务水平目标(SLOs)的时间间隔令牌(TBT)方面发挥了重要作用,即使在高工作负载下也是如此。实验结果表明,与基线相比,月饼在模拟场景中实现了高达五倍的吞吐量增加,并在现实世界的工作负载下实现了75%更多的请求处理。
月饼开源发布的重要性是多层次的。它代表了在去中心化LLM推理工作负载方面的进步,确保没有单一硬件组件成为瓶颈。以KVCache为中心的调度模型有效地平衡了资源负载,使服务提供商能够在不违反延迟要求的情况下最大化吞吐量。鉴于LLM能力在各行业的需求日益增长,这种效率至关重要。
实验结果表明,月饼在一些模拟的长上下文场景中实现了高达五倍的吞吐量增加,同时保持了所需的SLOs。在现实世界的环境中,月饼使Kimi能够处理比以往架构多75%的请求。这些改进突出了月饼高效扩展和降低成本的能力。解耦方法还提供了更大的灵活性,可以即时添加计算资源,这比传统耦合系统更有效地解决了LLM工作负载的可变性。
分阶段的开源推出也鼓励了协作开发。通过从传输引擎开始,月之暗面科技旨在在发布更多组件之前收集社区的见解。这种分阶段的方法旨在引导进一步的优化和在需要高效LLM服务解决方案的各个领域中的更广泛采用。
结论
月之暗面科技开源月饼的决定反映了行业向透明和可扩展的AI开发实践的更广泛趋势。通过专注于以KVCache为中心的分离,月饼解决了LLM服务的关键挑战------延迟、效率和可扩展性。它已经显示出显著的性能提升,使其成为一个有前景的LLM服务框架。月饼的架构有效地平衡了计算和缓存需求,提高了资源利用率,降低了延迟,并增强了整体吞吐量。分阶段的开源方法强调了月之暗面科技对持续改进和社区合作的承诺。