【AI】ollama和vLLM怎么选

vLLM和Ollama不是谁更好的问题，而是"场景不同，各有所长"。vLLM是专为高并发生产环境设计的"高铁"，追求极致吞吐量；Ollama则是为个人开发和边缘部署打造的"跑车"，追求极致的易用性。

对比维度	vLLM (高铁)	Ollama (跑车)
目标定位	高吞吐、低延迟的生产级服务	本地开发、快速原型、边缘部署
吞吐量	极高。50并发下总吞吐约920 tok/s	较低。50并发下约155 tok/s（排队模式）
延迟	极低。50并发下P99延迟约2.8秒	较高。50并发下P99延迟约24.7秒
内存管理	PagedAttention，动态分页管理KV缓存，利用率高	静态分配，模型加载时一次性占用
批处理	连续批处理，请求到达即处理，无间隙	请求队列，批次间存在15-20ms间隙
硬件支持	GPU优先（NVIDIA），CPU仅限调试	GPU+CPU全支持，含Apple Silicon/Metal
易用性	中等（需Python环境、Docker配置）	极高（单二进制，一条命令搞定）
GitHub热度	~50k Stars	~120k Stars
典型场景	多用户SaaS、高并发API、延迟敏感服务	本地测试、CI/CD流水线、边缘设备、个人使用

实测数据基于：单张RTX 4090，Llama 3.1 8B模型。

一句话：vLLM是投入生产环境时，那个"无聊但正确"的可靠选择。

一句话：Ollama是个人开发者从零到一体验本地模型的最佳"入门神器"。

如果你既要Ollama的便捷，又馋vLLM的性能，可以考虑混合部署：