mooncake

月之暗面科技开源kimi核心推理架构：“月饼”大型语言模型(LLMs)变得越来越复杂，需求也越来越大，这给那些想要提供既灵活又经济的模型即服务(MaaS)的公司带来了不小的挑战。LLMs在各种应用中迅速流行起来，导致输入输出的长度、到达的频率和服务需求变化很大。要平衡资源，满足这些多样化的需求，已经成为了一个关键的问题。要实现这种平衡，就需要复杂的策略来满足不同的服务水平目标(SLOs)，对于延迟和吞吐量的要求。而且，传统的LLM服务架构通常都假设有足够的资源来处理所有的请求，但随着需求的增加，特别是在高峰时段，这变得越来越难。

我是有底线的