windows下玩转vllm：vllm简介

文章目录

前言
[ollama vs vllm](#ollama vs vllm)
- - Ollama
  - vLLM
vllm简介

前言

之前做大模型的本地部署，一直都用的ollama。

ollama给我的感觉就是，特别方便，几步就可以把大模型部署好。

但我看别人都用的vllm，感觉逼格更高一些。

所以也就尝试一下。

ollama vs vllm

Ollama和vLLM都是用于部署大型语言模型（LLMs）的重要工具，它们各自拥有独特的优点和局限性。以下是对这两个框架的详细分析：

Ollama

优点：

易用性和快速部署：Ollama以其简洁的设计和易于使用的API著称，即使是缺乏经验的用户也能迅速上手并开始使用。它提供了简单的一键安装过程，并支持多种操作系统，包括macOS、Linux和Windows，这使得跨平台部署变得轻而易举。
内存占用少：相比其他解决方案，Ollama对系统资源的需求较低，这对于硬件配置不是特别高的设备来说是一个巨大的优势。
API兼容性高：Ollama实现了OpenAI API规范，这意味着它可以与基于该规范构建的应用程序无缝集成，从而扩展了其应用范围。
实时数据流支持：它能够提供实时响应的能力，这对于需要即时反馈的应用场景非常重要，比如在线客服或互动式教育软件。
广泛模型适配：Ollama支持一系列主流模型架构，如Llama、Phi、Gemma等，还允许通过MLC格式进行模型定制化。

缺点：

并发处理能力有限：尽管Ollama在最新版本中增加了对并发请求的支持，但其处理多个并发任务的能力仍然不如一些专门设计用于高性能计算的框架。
国内网络环境问题：由于服务器位于国外，国内用户可能会遇到下载速度慢或者连接不稳定的问题。
硬件性能限制：在客户端硬件条件较差的情况下，Ollama可能无法充分利用模型的潜力，导致性能瓶颈。

vLLM

优点：

优化的内存管理：vLLM专注于大规模语言模型的内存管理优化，能够在GPU资源有限的情况下高效运行超大模型。这对于那些希望在资源受限环境下部署大型模型的用户来说非常有用。
高效的推理速度：特别是在多GPU环境中，vLLM可以实现显著的吞吐量提升，这是因为它的设计充分考虑了并行处理的需求。
强大的分布式推理能力：vLLM支持多GPU设备间的分布式部署，使得它非常适合企业级应用中需要处理大量并发请求的情况。

缺点：

功能单一性：虽然vLLM在推理方面表现出色，但它主要侧重于推理而非训练，因此对于那些需要在同一框架下同时进行训练和推理的项目来说，可能不太合适。
社区和支持相对较小：与DeepSpeed这样的成熟框架相比，vLLM的社区和生态系统尚处于发展阶段，这意味着用户在遇到问题时可能难以找到足够的帮助。

综上所述，选择Ollama还是vLLM取决于具体的应用场景和个人需求。如果你追求的是一个易于部署且对资源要求不高的解决方案，那么Ollama可能是更好的选择；而如果你关注的是如何最大化利用现有的硬件资源来提高推理效率，特别是在有多个GPU可用的情况下，vLLM则更符合你的需求。此外，考虑到未来的发展趋势和技术更新，持续关注这两个框架的新进展也是明智之举。例如，随着技术的进步，Ollama已经逐步增强了其并发处理能力，而vLLM也在不断改进其内存管理和推理加速技术。因此，在做出最终决定前，了解最新的技术和社区动态同样重要。

vllm简介

vLLM（Virtual Large Language Model）是一个由加州大学伯克利分校的LMSYS组织开发的开源大语言模型高速推理框架。它旨在提升实时场景下语言模型服务的吞吐量和内存使用效率，特别适合于需要高效处理大量并发请求的应用场景。

核心特点

PagedAttention

vLLM的核心技术是PagedAttention，这是一种受操作系统虚拟内存管理启发的注意力机制算法。PagedAttention允许在不连续的内存空间中存储连续的键值对（keys和values），从而解决了自回归模型中的KV缓存问题。通过将每个序列的KV缓存划分为固定大小的块，PagedAttention能够有效地管理和访问这些缓存，减少了显存碎片并提高了显存利用率。

内存优化

除了PagedAttention外，vLLM还采用了其他内存优化策略，比如memory sharing。这种机制能够在不同的序列之间共享物理内存块，进一步降低了显存需求，并提高了整体的吞吐量。

高效推理

vLLM相比HuggingFace Transformers等其他框架，在相同的硬件条件下能提供更高的吞吐量。具体来说，它的文本生成推理速度可以达到HuggingFace实现的3.5倍到24倍不等，这使得vLLM成为资源受限环境下部署大型语言模型的理想选择。

应用场景

由于其高效的推理能力和良好的内存管理，vLLM适用于多种自然语言处理任务，包括但不限于：

文本生成：如自动写作、内容创作、广告文案生成等。
机器翻译：实现高质量的多语言互译。
问答系统：构建智能客服或虚拟助手，以提高用户体验。
情感分析：用于舆情监控、产品评论分析等领域。

安装与使用

这一篇写不完了，咱们下一篇继续。