vllm

susu10830189111 天前
vllm
LiteLLM + vLLM模型调用引擎架构二、Docker 安装 vLLMdocker-compose.yml把模型放到modelsLiteLLM 配置config.yaml
爱听歌的周童鞋1 天前
llm·vllm·scheduler·inference·nano-vllm·block manager
Nano-vLLM深度解读(上)最近博主看了几个视频想来学习下 nano-vllm,记录下个人学习笔记,和大家一起分享交流😄Note:一些基础的内容默认大家都会,我们的重点是关注 vLLM 推理框架的核心机制,而对于模型本身的知识例如 nano-vllm 使用的 Qwen 系列模型构建部分我们会跳过,不会讲得那么详细。
AI成长日志4 天前
vllm
【vLLM专栏】vLLM项目全景与快速开始摘要:本文是大模型推理优化框架vLLM深度解析系列的第一章,全面介绍vLLM的诞生背景、核心优势、生态地位,并提供Docker与pip两种部署方式的详细教程,附带最小可运行示例。通过本文,读者将掌握vLLM服务化部署的基本技能,为后续深入PagedAttention原理与性能调优打下坚实基础。
式5165 天前
学习·vllm
VLLM架构学习(一)VLLM是什么、VLLM的原理注:本文中出现的“内存”指的是GPU的“显存”VLLM是一款用于部署大模型的开源推理引擎。它的意义在于减少大语言模型部署时造成的显卡显存浪费。本文将简单介绍VLLM的原理。
love530love5 天前
人工智能·windows·vllm·ollama·llama.cpp·lm studio·openclaw
OpenClaw搭配LM Studio VS Ollama:Windows CUDA实战深度对比与完全配置指南Ollama 官方网站OllamaOllama 官方 GitHub 仓库GitHub - ollama/ollama
seaside20035 天前
大模型·vllm
docker 部署vllm 实现Qwen 3.5 2B 模型推理NVIDIA GeForce RTX 3090服务器CUDA版本:13.1模型:Qwen3.5 2B,注意从这个版本开始,不再区分LLM、VLM,通用
TLY-101-0106 天前
linux·ubuntu·ai·vllm
工作日记:在win11上开启WSL安装ubuntu,使用VLLM运行ASR模型win11支持开启wsl运行linux系统 win+R打开cmd 输入默认下载最新版ubuntu 指定版本用下面的命令
dragonchow1237 天前
vllm·openclaw
openclaw vllm 20260312赠送14M的token用完了,打算vllm部署Qwen来跑一跑openclawvllm docopenclaw onboard配置一下provider,url:http://ip:50072/v1, 模型名qwen3-32b,apiKey随便填一个
七夜zippoe7 天前
人工智能·vllm·重排·openjiuwen·交叉编码器
交叉编码器重排:支持vLLM兼容API的StandardReranker实现重排(Rerank) 是决定最终效果的关键一环。当初步检索返回数十甚至数百个相关文档时,如何精准地将最相关的少数文档置于前列,直接影响大模型的生成质量。本文将深入介绍 openJiuwen 检索增强系统中重排模块的设计与实现,展示如何通过统一接口支持多种重排服务。
love530love8 天前
人工智能·pytorch·windows·python·深度学习·comfyui·vllm
Windows 11 源码编译 vLLM 0.16 完全指南(CUDA 12.6 / PyTorch 2.7.1+cu126)本文是上篇 vLLM Windows cu128 编译指南 的复盘版本。上篇使用 CUDA 12.8 编译,本篇使用 CUDA 12.6 重新编译,与 PyTorch 2.7.1+cu126 完全匹配。同时修正了上篇中 subst 映射用途的描述,并给出更清晰的一键恢复脚本。
HyperAI超神经8 天前
人工智能·深度学习·学习·机器学习·ai编程·llama·vllm
在线教程丨免费CPU资源快速部署,覆盖Qwen3.5/DeepSeek-R1/Gemma 3/Llama 3.2等热门开源模型开源模型的迭代速度狂飙,从科技大厂到初创企业、再到科研团队,新模型在各项基准测试中「你方唱罢我登场」,而在飞速运转的 AI 齿轮之上,开发者迈入创新技术的门槛依然存在。
melody_of_Canon8 天前
vllm
vLLM Serve 参数详解🎯 这是 vLLM 的生产级服务启动命令,把模型变成 OpenAI 兼容的 API 服务,支持并发请求、多卡并行、量化加速等所有高级功能。
melody_of_Canon8 天前
vllm
vLLM Bench Latency 参数详解🎯 这是 vLLM 的纯引擎延迟测试工具,直接在 GPU 上跑模型推理,不经过 HTTP 服务层,测的是"模型本身能跑多快"。
love530love9 天前
人工智能·pytorch·windows·python·深度学习·vllm·vs 2022
Windows 11 源码编译 vLLM 0.16 完全指南(RTX 3090 / CUDA 12.8 / PyTorch 2.7.1)系列背景:本文是"Windows 本地部署 AI 推理环境"系列的一部分,为的是本地 ComfyUI 环境编译适配的 vLLM 包。前序文章已完成 ComfyUI-3D-Pack 六大依赖的编译,本文记录在同一台机器上从零编译 vLLM Windows 分支的完整过程,包含所有踩坑和解决方案。
~kiss~23 天前
人工智能·语言模型·vllm
高性能大语言模型推理与服务框架(推理引擎)vLLMvLLM 不是一个大模型本身,而是一个高性能大语言模型推理与服务框架(推理引擎),专门解决大模型在 GPU 上速度慢、显存占用高、并发能力差的问题vLLM
hit56实验室23 天前
vllm
明明已经把vllm被强制kill了,但是仍然占用GPU显存pkill -9 -f vllmpkill -9 -f raypkill -9 -f python
陈 洪 伟24 天前
vllm·mla
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力abstract MLA就是压缩KV减少显存占用 增加向量维度表示位置信息,以支持矩阵乘法融合,视频地址:DeepSeek-v2 MLA 原理讲解 多头潜在注意力怎么解决旋转位置编码的问题 解决方式就是给Q K向量额外增加一些维度来表示位置信息,
陈 洪 伟25 天前
vllm·prefix caching
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码该博客是看学习视频时的简单笔记,感兴趣的可以直接看原视频:[EP05] vllm从开源到部署,Prefix Caching和开源答疑
深刻如此25 天前
大语言模型·文本生成·vllm·chainlit
Qwen2.5-7B-Instruct实战教程:Chainlit集成WebSocket实时通信增强你可能已经听说过通义千问系列,但Qwen2.5-7B-Instruct这个新名字,代表的不只是版本更新,而是一次能力跃迁。它不是简单地把参数调大、训练时间拉长,而是从知识覆盖、逻辑推理、结构化理解到多语言支持,做了系统性升级。
长路 ㅤ   1 个月前
模型部署·vllm·xinference·推理引擎·ai框架
快速了解VLLM推理引擎博主介绍:✌目前全网粉丝4W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。