月之暗面科技开源kimi核心推理架构:“月饼”大型语言模型(LLMs)变得越来越复杂,需求也越来越大,这给那些想要提供既灵活又经济的模型即服务(MaaS)的公司带来了不小的挑战。LLMs在各种应用中迅速流行起来,导致输入输出的长度、到达的频率和服务需求变化很大。要平衡资源,满足这些多样化的需求,已经成为了一个关键的问题。要实现这种平衡,就需要复杂的策略来满足不同的服务水平目标(SLOs),对于延迟和吞吐量的要求。而且,传统的LLM服务架构通常都假设有足够的资源来处理所有的请求,但随着需求的增加,特别是在高峰时段,这变得越来越难。