阿里云人工智能平台PAI论文入选OSDI ‘24

近日,阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。

Llumnix是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix请求尾延迟时间剧减超过10倍 ,将高优先级请求的速度提高了1.5倍 ,并在实现类似尾部延迟的同时,成本降低为原先的64%

OSDI是操作系统及分布式系统领域的旗舰级会议,OSDI与其姊妹会议SOSP长期以来对系统领域发展起着深刻的推动作用,在学术和工业界均有巨大影响力。OSDI/SOSP上曾诞生了许多影响深远的论文和系统,如GFS、MapReduce、BigTable等经典的分布式系统,以及如TensorFlow、TVM、vLLM等在人工智能领域产生深远影响的系统。

此次入选意味着阿里云人工智能平台PAI在大模型推理持续引领业界方向,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。

自ChatGPT这一颠覆性产品问世以来,生成式大语言模型(LLM)技术迎来了堪称日新月异的发展,短短一到两年时间我们已经见证了一系列大模型及产品的诞生和应用。LLM推理服务也因此成为LLM不断产品化进程中的关键技术支撑。然而LLM推理的请求及其执行呈现高度的差异性、动态性和不可预测性,这些特性给现今的推理服务系统带来了一系列挑战,大大限制了LLM推理服务的效率。

Llumnix是阿里云PAI团队研发的LLM推理动态调度框架 ,旨在利用调度的动态性 来化解由请求的动态性带来的种种挑战。Llumnix是一个支持在多个模型实例之间对请求进行运行时重调度的框架,这一重调度能力使得Llumnix可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现了如负载均衡、碎片整理、请求优先级等一系列调度特性和优化(如下图)。通过在LLaMA系列模型上的实验,初步展示了动态调度的潜力,如大幅降低延迟,加速高优先级请求,以及降低服务成本等。

阿里云人工智能平台PAI团队对Llumnix进行了产品化研发,并已开源 (Github地址:GitHub - AlibabaPAI/llumnix)。当前版本的Llumnix支持vLLM为后端推理引擎,可自动化拉起多实例vLLM服务,并在多实例之间进行请求调度及重调度。Llumnix保持了与vLLM非常相似的用户接口,从而以尽可能平滑和透明的方式加持在已部署的vLLM服务之上。目前,开源版本的Llumnix处于alpha状态,仍在积极研发和迭代中。欢迎您的试用和反馈!

后续Llumnix将与阿里云人工智能平台PAI自研的BladeLLM推理引擎PAI-EAS模型在线服务 等产品深度结合,形成一体化的高性能LLM推理套件,并集成进入PAI灵骏智算服务产品,助力企业和个人开发者完成云上大语言模型服务的创新。

论文信息

**论文标题:**Llumnix: Dynamic Scheduling for Large Language Model Serving

**作者:**孙彪,黄梓铭,赵汉宇,肖文聪,张欣怡,李永,林伟

论文地址: Llumnix: Dynamic Scheduling for Large Language Model Serving | USENIX

相关推荐
海边夕阳20066 小时前
【每天一个AI小知识】:什么是多模态学习?
人工智能·深度学习·机器学习·计算机视觉·语言模型·自然语言处理
老艾的AI世界6 小时前
最新AI幻脸软件,全面升级可直播,Mirage下载介绍(支持cpu)
图像处理·人工智能·深度学习·神经网络·目标检测·ai
凤希AI伴侣6 小时前
架构重构与AI能力聚焦:一人开发的自动化未来 凤希AI伴侣 · 开发日记 · 2025年12月20日
人工智能·重构·自动化·凤希ai伴侣
攻城狮7号6 小时前
微软开源 TRELLIS.2:单图 3 秒变 3D?
人工智能·3d·trellis.2·o-voxel·sc-vae·微软开源模型
运维@小兵6 小时前
Spring AI系列——开发MCP Server和MCP Client(SSE方式)
java·人工智能·spring
free-elcmacom6 小时前
机器学习高阶教程<8>分布式训练三大核心策略拆解
人工智能·分布式·python·机器学习
珂朵莉MM6 小时前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第一赛季优化题--无人机配送
人工智能·算法·无人机
有为少年6 小时前
带噪学习 | Ambient Diffusion (NeurIPS 2023)下篇
人工智能·深度学习·神经网络·学习·机器学习·计算机视觉
upper20206 小时前
数据挖掘12
人工智能·数据挖掘
yohalaser6 小时前
追光者的“速度游戏“:光伏测试设备的技术迭代之路
人工智能·功能测试·可用性测试