高性能大语言模型推理与服务框架（推理引擎）vLLM

~kiss~2026-02-25 11:56

vLLM 不是一个大模型本身，而是一个高性能大语言模型推理与服务框架（推理引擎），专门解决大模型在 GPU 上速度慢、显存占用高、并发能力差的问题vLLM

vLLM = Vectorized Large Language Model（向量化大语言模型），由 UC Berkeley 开发

核心是用 PagedAttention 技术把大模型推理的吞吐量提升数倍、显存浪费降到极低，是生产环境部署 LLM 服务的主流选择vLLM

核心技术：PagedAttention（分页注意力）

这是 vLLM 快的根本原因：

传统 LLM 推理：KV 缓存需要连续大块显存，碎片多、浪费 60%--80% 显存

PagedAttention：借鉴操作系统虚拟内存，把 KV 缓存分块管理，无需连续空间，内存浪费率<4%

支持多请求共享 KV 缓存（前缀缓存），进一步省显存、提并发

超高吞吐：比 Hugging Face Transformers 快 10--24 倍，单 GPU 每秒可处理 100+ 请求

显存高效：同样模型，vLLM 可跑更大 batch、更多并发

兼容广：原生支持 Llama 3、Mistral、Qwen、Phi、Gemma 等几乎所有主流开源模型

易部署：提供 OpenAI 兼容 API，一行命令启动服务vLLM

量化支持： GPTQ、AWQ、INT4/8、FP8 等，进一步压缩显存vLLM

分布式：支持多 GPU 张量并行、流水线并行vLLM

框架定位硬件偏好适用场景

vLLM 高吞吐、生产级推理引擎 GPU 优先（NVIDIA/AMD）云端 API 服务、高并发、大模型部署vLLM

llama.cpp 轻量、CPU 友好引擎 CPU / 低端 GPU 本地单机、离线、低配设备vLLM

Ollama 封装层（底层用 llama.cpp）本地单机个人快速体验、本地开发vLLM

vLLM 是面向生产环境的 GPU 推理加速引擎，不是模型；它让你用同样的 GPU，跑更快、并发更高、成本更低