技术栈

mooncake

OpenAnolis小助手
20 天前
操作系统·龙蜥社区·大模型应用·mooncake·sglang·openclaw
极速、稳定、丝滑:OpenClaw 接入 Mooncake 后的性能跃迁有些性能提升,一眼就能看出来。比如平均延迟更低了,吞吐更高了,首 token 更快了。这样的数字很适合放在 benchmark 表格里,也很适合拿出来做对比。但还有一种性能提升,不是第一眼最炸裂,却更接近真实体验。它不是让系统“最快的时候再快一点”,而是让系统在持续使用、多会话切换、长上下文推进的时候,不那么容易突然卡一下。
强哥之神
1 年前
人工智能·科技·机器学习·架构·开源·智能体·mooncake
月之暗面科技开源kimi核心推理架构:“月饼”大型语言模型(LLMs)变得越来越复杂,需求也越来越大,这给那些想要提供既灵活又经济的模型即服务(MaaS)的公司带来了不小的挑战。LLMs在各种应用中迅速流行起来,导致输入输出的长度、到达的频率和服务需求变化很大。要平衡资源,满足这些多样化的需求,已经成为了一个关键的问题。要实现这种平衡,就需要复杂的策略来满足不同的服务水平目标(SLOs),对于延迟和吞吐量的要求。而且,传统的LLM服务架构通常都假设有足够的资源来处理所有的请求,但随着需求的增加,特别是在高峰时段,这变得越来越难。
我是有底线的