vLLM介绍

简介

vLLM 工程github地址
Paged attention论文地址

vLLM开发者介绍

Woosuk Kwon

vLLM: A high-throughput and memory-efficient inference and serving engine for LLMs.

SkyPilot: A framework for easily and cost effectively running machine learning workloads on any cloud.

Zhuohan Li

vLLM: A high-throughput and memory-efficient serving engine for large language models, accelerated with PagedAttention.

Vicuna: An open-source chatbot impressing GPT-4 with 90% ChatGPT quality.

AlpaServe: Use model parallelism to accelerate deep learning serving, even when models fit a single GPU.

Alpa: Automate model parallel training with just a few lines of code.

Features

  • SOTA最先进的服务吞吐量
  • 高效的显存管理:PagedAttention高效管理kv memory,multi-query attention
  • 传入请求的Continuous batching
  • 优化的CUDA kernels。比如从Faster Transformer release 5.3中移植过来的attention kernel。实现了layernorm和position encoding kernels。
  • 支持多卡GPU推理,目前只支持Tensor parallel,不支持pipeline parallel
  • 最新开源模型支持,更新速度非常快:llama, llama2, 百川,通义千问,书生等等

主要解决的问题

由于LLMs以迭代方式生成其输出,LLM服务的性能受到内存的限制(内存和IO受限型memory-IO bound),计算资源不是瓶颈。就是说,当前将1MB的数据加载到GPU的计算核心所花费的时间比这些计算core对1MB数据执行LLM计算所花费的更多。这意味着LLM推理吞吐量在很大程度上取决于您可以将多大的batch放入高带宽GPU内存。参见(processor's ops:byte ratio.)

在自回归解码过程中,LLM的所有输入tokens产生它们的attention key and value tensors,并且这些tensors被保存在GPU存储器中以生成下一个token。这些缓存的key and value tensors通常被称为KV缓存。由于碎片和过度预留,现有系统浪费了60%-80%的显卡内存。

vLLM的解决方案

减少显存的碎片和过度预留问题可以显著的提升推理性能。VLLM的主要解决思路是:

以下是 AnyScale 公司针对VLLM做的continuous-batching-llm-inference评测结论:

我们想要看看这种优化的性能如何。我们将详细讨论以下内容,包括我们如何模拟生产工作负载,但是总结我们的发现:

  • 使用continuous batching和Paged attention内存优化(使用vLLM),吞吐量可提高高达23倍。
  • 通过使用continuous batching(在Ray Serve和Hugging Face的text-generation-inference上),吞吐量比简单batch提高8倍。
  • 通过优化的模型实现(NVIDIA的Faster Transformer优化介绍),吞吐量比简单batch提高4倍。

vLLM Work Through

详细参考绑定的资源:vLLM First SF Meetup Slides。是2个作者写的比较详细

性能评测 TBD

相关推荐
武雄(小星Ai)15 小时前
2026年AI Agent框架选型指南:LangGraph vs CrewAI vs Claude SDK vs OpenAI SDK
人工智能·aigc·agent
沐自礼16 小时前
DeepSeekMoE 原理
人工智能·llm
百珏17 小时前
个人理解的AI Code Review 架构的三代演进
架构·aigc·ai编程
三无推导18 小时前
ComfyUI 安装部署教程:Windows 下快速搭建可视化 AI 绘图工作流,零基础也能跑通
人工智能·pytorch·windows·stable diffusion·aigc·ai绘画·持续部署
小新同学^O^18 小时前
简单学习 --> 指令微调
人工智能·学习·llm·指令微调
captain_AIouo19 小时前
全域电商流量竞争白热化,autoAGC AI助商家破局增收
大数据·人工智能·经验分享·aigc
Hommy8819 小时前
【剪映小助手】贴纸处理接口
网络·开源·github·aigc·剪映小助手·视频剪辑自动化
swipe19 小时前
混合检索 RAG 的工程化实践:不是多查几路,而是把召回、重排和上下文预算管好
后端·langchain·llm
创世宇图19 小时前
Claude Opus 4.8 深度实测:动态多 Agent 协同、Effort Control 与幻觉抑制的工程化解析
ai·llm·agent·claude·ai工程化
这个DBA有点耶21 小时前
多模融合数据库深度解析:关系、文档、向量、图如何统一?
数据库·自然语言处理·aigc·dba·改行学it