vllm

大模型推理3 天前
深度学习·自然语言处理·vllm
Nano-vLLM 源码解读 - 7. Continuous Batchingnano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。L02 把请求生命周期讲完了:一条序列从 add_request 进 WAITING、被调度后状态切到 RUNNING、生成结束转为 FINISHED。L02 还给出每个 step 的内部时间线——schedule 写入 num_scheduled_tokens,run 算 KV 与 logits,postprocess 把 num_scheduled_tokens 累加到 num_cached_tokens 上并将 num_
周公3 天前
python·ai·llama·vllm·ollama
记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录最近需要本地部署大模型推理服务,目标是运行 Qwen3.6-35B 的 INT4 量化版本(AWQ 格式),并使用高性能推理引擎 vLLM 提供服务。由于模型采用 AWQ 量化,且需要较新的 CUDA 环境,现有的 CUDA 11.5 和旧版驱动已经不满足要求。因此,决定将 NVIDIA 驱动和 CUDA Toolkit 升级到 CUDA 12.9 兼容版本,并在 Docker 容器中运行 vLLM,以实现环境隔离与快速部署。
清风lsq4 天前
人工智能·vllm·大模型推理
大模型-vllm 投机解码实现https://docs.vllm.ai/en/latest/examples/features/speculative_decoding/?h=speculative+decoding
清风lsq4 天前
人工智能·vllm·大模型推理
大模型-vllm 实现lora解析https://docs.vllm.ai/en/latest/design/lora_resolver_plugins/
我叫Double6 天前
vllm
本地服务器部署vllm+Qwen3-Coder-Next的模型在miniconda3的解压包下找到.condarc文件,里面也配一下镜像源环境配置好之后创建一个合适版本的的虚拟环境
m0_564876847 天前
vllm
vllm的pageattention到底是怎么回事?pageattention 经常听到的就是有两大优点:一个是减少 内存块浪费,另一个方面就是 减少内存碎片。
AI视觉网奇7 天前
docker·容器·vllm
docker vllm 开机启动/workspace/.devcontainer/devcontainer.json
做个文艺程序员10 天前
vllm·vllm教程
vLLM 部署大模型推理服务完全教程:吞吐量是 Ollama 的 10 倍,生产环境首选先搞清楚选型,避免选错工具走弯路:选型结论:传统推理框架的显存浪费问题:同时,vLLM 使用 Continuous Batching(连续批处理):
liuyunshengsir10 天前
vllm
LMCache + vLLM 部署指南(以 Qwen3-0.6B 为例)本文档介绍如何在 Ubuntu/CentOS/Linux 环境下部署 vLLM + LMCache,实现 GPU 上大模型的高性能推理。
诸葛老刘10 天前
docker·vllm
在PC机上 使用docker vLLM镜像部署Qwen3-1.7B
Soonyang Zhang11 天前
人工智能·vllm·推理框架
vllm分析(二)——http request的入口处理创建流程代码调用output_handler代码: https://github.com/vllm-project/vllm/blob/v0.20.1/vllm/v1/engine/async_llm.py#L656 OutputProcessor.process_outputs代码: https://github.com/vllm-project/vllm/blob/v0.20.1/vllm/v1/engine/output_processor.py#L572
xyhshen11 天前
vllm
如何两台atlas-a2服务器物理机,基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型两台8*64的昇腾910b4服务器物理机,未做任何虚拟化,已经通过交换机进行互联模型:https://modelscope.cn/models/Eco-Tech/Qwen3.5-35B-A3B-w8a8-mtp
zadyd12 天前
linux·人工智能·python·机器学习·vllm
vLLM Linux 双卡部署大模型服务器指南将模型文件放置到指定目录:问题: 模型说话说到一半就没响应了原因: 流式响应间隔过长,客户端超时断开解决方案: 添加 --stream-interval 1 参数
是Dream呀18 天前
ai·vllm·openclaw
从零到一:Triton实现CELU激活函数优化之路写过CUDA Kernel的同学都知道,实现一个高性能的GPU算子有多繁琐——手动管理共享内存、计算线程块配置、优化访存模式,每一步都需要深入理解硬件架构。而Triton的出现改变了这个局面。
花间相见19 天前
开源·vllm
【大模型推理01】—— 初探VLLM:高性能LLM推理引擎,让开源模型跑起来更快更省在大模型落地的过程中,很多开发者都会遇到一个共性痛点:本地跑开源模型(比如Llama 3、Qwen)时,显存不够用、推理速度慢;想搭个私有API服务,并发一高就卡顿甚至崩溃。而今天要给大家介绍的VLLM,正是解决这些痛点的“神器”——它不是一款新模型,而是一个快速、易用的LLM推理与服务库,能让我们手里的开源模型,实现数倍性能提升,同时大幅降低显存占用。
Flying pigs~~20 天前
模型训练·deepspeed·vllm·模型推理·zero·pageattention
大模型训练框架 ➕ 推理部署框架训练用 DeepSpeed,推理选 vLLM 或 Ollama,入门看 Transformers,生产上 TGI。大模型从训到跑,一套框架全搞定。 🚀
AI木马人20 天前
人工智能·transformer·vllm
2.人工智能实战:大模型接口并发低、GPU利用率上不去?基于 vLLM 重构推理服务的完整工程方案最近在做一个内部知识库问答系统,模型本地推理已经跑通,FastAPI 接口也能正常返回结果。一开始我以为事情差不多结束了,结果一做压测,问题马上暴露:
AIDF202622 天前
运维·服务器·推理·vllm
我们看一份报告的时候主要看什么这是使用vllm里面的压测脚本测试出来的数据,并发量分别为20和1在看数据前,先明确三个最关键的指标含义(主要看什么):
张忠琳22 天前
ai·架构·vllm
【vllm】(八)vLLM v1 Simple KV Offload — 系统级架构深度分析之二第70-155行:SimpleCPUOffloadScheduler.init逐行解析:第156-184行:_derive_cpu_config