技术栈
vllm
susu1083018911
1 天前
vllm
LiteLLM + vLLM模型调用引擎架构
二、Docker 安装 vLLMdocker-compose.yml把模型放到modelsLiteLLM 配置config.yaml
爱听歌的周童鞋
1 天前
llm
·
vllm
·
scheduler
·
inference
·
nano-vllm
·
block manager
Nano-vLLM深度解读(上)
最近博主看了几个视频想来学习下 nano-vllm,记录下个人学习笔记,和大家一起分享交流😄Note:一些基础的内容默认大家都会,我们的重点是关注 vLLM 推理框架的核心机制,而对于模型本身的知识例如 nano-vllm 使用的 Qwen 系列模型构建部分我们会跳过,不会讲得那么详细。
AI成长日志
4 天前
vllm
【vLLM专栏】vLLM项目全景与快速开始
摘要:本文是大模型推理优化框架vLLM深度解析系列的第一章,全面介绍vLLM的诞生背景、核心优势、生态地位,并提供Docker与pip两种部署方式的详细教程,附带最小可运行示例。通过本文,读者将掌握vLLM服务化部署的基本技能,为后续深入PagedAttention原理与性能调优打下坚实基础。
式516
5 天前
学习
·
vllm
VLLM架构学习(一)VLLM是什么、VLLM的原理
注:本文中出现的“内存”指的是GPU的“显存”VLLM是一款用于部署大模型的开源推理引擎。它的意义在于减少大语言模型部署时造成的显卡显存浪费。本文将简单介绍VLLM的原理。
love530love
5 天前
人工智能
·
windows
·
vllm
·
ollama
·
llama.cpp
·
lm studio
·
openclaw
OpenClaw搭配LM Studio VS Ollama:Windows CUDA实战深度对比与完全配置指南
Ollama 官方网站OllamaOllama 官方 GitHub 仓库GitHub - ollama/ollama
seaside2003
5 天前
大模型
·
vllm
docker 部署vllm 实现Qwen 3.5 2B 模型推理
NVIDIA GeForce RTX 3090服务器CUDA版本:13.1模型:Qwen3.5 2B,注意从这个版本开始,不再区分LLM、VLM,通用
TLY-101-010
6 天前
linux
·
ubuntu
·
ai
·
vllm
工作日记:在win11上开启WSL安装ubuntu,使用VLLM运行ASR模型
win11支持开启wsl运行linux系统 win+R打开cmd 输入默认下载最新版ubuntu 指定版本用下面的命令
dragonchow123
7 天前
vllm
·
openclaw
openclaw vllm 20260312
赠送14M的token用完了,打算vllm部署Qwen来跑一跑openclawvllm docopenclaw onboard配置一下provider,url:http://ip:50072/v1, 模型名qwen3-32b,apiKey随便填一个
七夜zippoe
7 天前
人工智能
·
vllm
·
重排
·
openjiuwen
·
交叉编码器
交叉编码器重排:支持vLLM兼容API的StandardReranker实现
重排(Rerank) 是决定最终效果的关键一环。当初步检索返回数十甚至数百个相关文档时,如何精准地将最相关的少数文档置于前列,直接影响大模型的生成质量。本文将深入介绍 openJiuwen 检索增强系统中重排模块的设计与实现,展示如何通过统一接口支持多种重排服务。
love530love
8 天前
人工智能
·
pytorch
·
windows
·
python
·
深度学习
·
comfyui
·
vllm
Windows 11 源码编译 vLLM 0.16 完全指南(CUDA 12.6 / PyTorch 2.7.1+cu126)
本文是上篇 vLLM Windows cu128 编译指南 的复盘版本。上篇使用 CUDA 12.8 编译,本篇使用 CUDA 12.6 重新编译,与 PyTorch 2.7.1+cu126 完全匹配。同时修正了上篇中 subst 映射用途的描述,并给出更清晰的一键恢复脚本。
HyperAI超神经
8 天前
人工智能
·
深度学习
·
学习
·
机器学习
·
ai编程
·
llama
·
vllm
在线教程丨免费CPU资源快速部署,覆盖Qwen3.5/DeepSeek-R1/Gemma 3/Llama 3.2等热门开源模型
开源模型的迭代速度狂飙,从科技大厂到初创企业、再到科研团队,新模型在各项基准测试中「你方唱罢我登场」,而在飞速运转的 AI 齿轮之上,开发者迈入创新技术的门槛依然存在。
melody_of_Canon
8 天前
vllm
vLLM Serve 参数详解
🎯 这是 vLLM 的生产级服务启动命令,把模型变成 OpenAI 兼容的 API 服务,支持并发请求、多卡并行、量化加速等所有高级功能。
melody_of_Canon
8 天前
vllm
vLLM Bench Latency 参数详解
🎯 这是 vLLM 的纯引擎延迟测试工具,直接在 GPU 上跑模型推理,不经过 HTTP 服务层,测的是"模型本身能跑多快"。
love530love
9 天前
人工智能
·
pytorch
·
windows
·
python
·
深度学习
·
vllm
·
vs 2022
Windows 11 源码编译 vLLM 0.16 完全指南(RTX 3090 / CUDA 12.8 / PyTorch 2.7.1)
系列背景:本文是"Windows 本地部署 AI 推理环境"系列的一部分,为的是本地 ComfyUI 环境编译适配的 vLLM 包。前序文章已完成 ComfyUI-3D-Pack 六大依赖的编译,本文记录在同一台机器上从零编译 vLLM Windows 分支的完整过程,包含所有踩坑和解决方案。
~kiss~
23 天前
人工智能
·
语言模型
·
vllm
高性能大语言模型推理与服务框架(推理引擎)vLLM
vLLM 不是一个大模型本身,而是一个高性能大语言模型推理与服务框架(推理引擎),专门解决大模型在 GPU 上速度慢、显存占用高、并发能力差的问题vLLM
hit56实验室
23 天前
vllm
明明已经把vllm被强制kill了,但是仍然占用GPU显存
pkill -9 -f vllmpkill -9 -f raypkill -9 -f python
陈 洪 伟
24 天前
vllm
·
mla
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力
abstract MLA就是压缩KV减少显存占用 增加向量维度表示位置信息,以支持矩阵乘法融合,视频地址:DeepSeek-v2 MLA 原理讲解 多头潜在注意力怎么解决旋转位置编码的问题 解决方式就是给Q K向量额外增加一些维度来表示位置信息,
陈 洪 伟
25 天前
vllm
·
prefix caching
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码
该博客是看学习视频时的简单笔记,感兴趣的可以直接看原视频:[EP05] vllm从开源到部署,Prefix Caching和开源答疑
深刻如此
25 天前
大语言模型
·
文本生成
·
vllm
·
chainlit
Qwen2.5-7B-Instruct实战教程:Chainlit集成WebSocket实时通信增强
你可能已经听说过通义千问系列,但Qwen2.5-7B-Instruct这个新名字,代表的不只是版本更新,而是一次能力跃迁。它不是简单地把参数调大、训练时间拉长,而是从知识覆盖、逻辑推理、结构化理解到多语言支持,做了系统性升级。
长路 ㅤ
1 个月前
模型部署
·
vllm
·
xinference
·
推理引擎
·
ai框架
快速了解VLLM推理引擎
博主介绍:✌目前全网粉丝4W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。