vllm

大模型推理13 小时前
vllm
《Nano-vLLM 源码解读》第 16 篇 · Linear 投影nano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。上一篇里 RoPE 旋转的 q、k,是从 self.qkv_proj(hidden) 一次投影、再 split 出来的。q、k、v 本是三个独立的线性投影,nano-vllm 把它们合并成了一次。
嘉陵妹妹1 天前
vllm
VLLM auto DL环境配置你现在是 AutoDL 容器(root 用户、base conda 环境),报错 bash: uv: command not found 就是:还没装 uv,或者装了但不在 PATH 里。下面直接给你在这个容器里能一步到位的安装命令
an86950011 天前
vllm
【无标题】ubuntu llama.cpp部署Qwen2.5-7B-Instruct-Q4_K_M1。安装基础依赖:更新软件源并安装必要的编译工具链。 sudo apt update sudo apt install -y build-essential cmake git wget curl libomp-dev 2。克隆源码并编译:由于没有 N 卡,无需开启 CUDA 选项。 git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make c
蔡不菜和他的uU们2 天前
人工智能·ssh·vllm
vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio在云端运行 vLLM 服务后,可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地,该方案可作为个人 AI 基础设施的底层架构。
likerhood2 天前
服务器·笔记·vllm
服务器使用 vLLM 部署 Qwen2.5-Coder-7B-CL 笔记这篇笔记记录一次在实验室服务器上使用 vLLM 部署本地 Qwen2.5-Coder-7B-CL 模型的完整过程。
一只努力的微服务2 天前
vllm·sglang
vLLM vs SGLang 深度技术对比这是两个框架最根本的技术差异,决定了各自的适用场景上限。问题背景:传统 LLM 推理需要为每个序列预分配连续的 KV Cache 显存空间,由于序列长度在推理前未知,通常按最大长度预留,导致严重的显存浪费(内部碎片),也限制了同时服务的并发数。
做个文艺程序员4 天前
人工智能·kubernetes·vllm
第08篇:K8s 部署 AI 大模型推理服务:GPU 调度 × vLLM × Java 客户端集成——从 0 到生产的完整方案很多团队初期使用 AI 大模型时,选择直接调用 OpenAI API 或云厂商托管的模型 API(通义千问、文心一言)。这完全没问题——直到你遇到以下场景:
reset20214 天前
性能优化·vllm
vllm性能优化vLLM作为当前最受欢迎的开源大语言模型推理框架,凭借其革命性的PagedAttention和Continuous Batching技术,已成为大模型高并发服务的首选方案。在2026年AI工程化浪潮下,vLLM已从单纯的技术工具演变为支撑AI基础设施的"加速引擎",通过优化显存利用率和GPU算力调度,使企业能在有限硬件资源下实现更高吞吐量、更低延迟的推理服务。本文将系统剖析vLLM的核心优化技术原理,并提供从量化选择、参数调优到生产部署的全流程优化方案,助力企业在实际应用中最大化vLLM的性能表现。
我叫张土豆5 天前
docker·语音识别·vllm
V100 显卡部署 Qwen3-ASR-1.7B 语音识别模型(vLLM + Docker 完整教程)环境:4× Tesla V100-SXM2-32GB / CUDA 12.2 / Docker 24.0+ 模型:Qwen/Qwen3-ASR-1.7B 框架:vLLM 0.14.0 + qwen-asr
碳基硅坊5 天前
人工智能·vllm·llama.cpp·模型加速·mtp
MTP在vLLM与llama.cpp上的性能对比:Qwen3.6与Gemma4实测MTP(Multi-Token Prediction,多Token预测)是一项新兴的大模型推理优化技术。本文基于完整测试数据,对比vLLM和llama.cpp在MTP模式下的性能表现,并提供可操作的部署指南。
Soonyang Zhang5 天前
vllm·推理框架·kv cache
vllm分析(八)——deepseek v4 Attention (SWA + CSA + HCA)DeepseekV4Attention DeepseekV4MultiHeadLatentAttentionWrapper
Soonyang Zhang6 天前
vllm·推理框架
vllm分析(七)——模型结构分析(llama, qwen3moe)模型权重 DeepSeek-R1-Distill-Llama-70B 模型参数 DeepSeek-R1-Distill-Llama-70B/config.json
陈 洪 伟6 天前
vllm·kvcache
大模型推理引擎vLLM(25): 从--kv-cache-dtype fp8_e5m2时gsm8k答非所问的bug梳理kv cache相应代码片段目录1 E4M3 E5M2的问题2 BF16 FP162.1 fp16(IEEE half,半精度)2.2 bf16(bfloat16,Brain Float)
zjun30217 天前
vllm·vllm-ascend·torch_npu·昇腾950
【昇腾950】如何在昇腾950pr的容器环境上部署vllm当前小主环境是容器,内部只安装了cann的环境,目的是需要在昇腾950pr的机器上跑起vllm。 cann的版本安装的是9.0.0的版本,
小何code7 天前
vllm·大模型部署·推理优化·pagedattention
人工智能【第55篇】大模型推理优化:vLLM与推理加速技术作者的话:随着大语言模型的规模不断增长,推理成本已成为AI应用落地的关键瓶颈。一个70B参数的模型,单次推理可能需要数GB显存和数秒延迟。vLLM等推理引擎通过PagedAttention、连续批处理等创新技术,将吞吐量提升了数十倍。本文将深入解析大模型推理优化的核心技术,并带你完成vLLM的实战部署!
清风lsq10 天前
vllm·大模型推理
大模型-vllm 自投机解码可行性分析用户希望实现一种"外部 Drafter + 内部 Target 验证"的投机解码变体方案:客户端运行独立的推理模型(例如 ASR drafter),生成草稿 token
大模型推理10 天前
vllm
《Nano-vLLM 源码解读》第 12 篇 · ModelRunner:从 prompt 到 token(二)nano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。上一篇把一条 prompt 一次 prefill,产出了第一个 token。但生成远不止一个 token:拿到第一个 token 后,引擎进入 decode——每一步、每条序列只把上一步刚产出的那一个 token 喂进模型,算出下一个,如此循环。
清风lsq11 天前
人工智能·vllm·大模型推理
大模型-解析vllm lora 模块文档版本:2026-05-27 代码路径:vllm/lora/ 覆盖文件:models.py, worker_manager.py, request.py, lora_weights.py, peft_helper.py
大模型推理11 天前
vllm
《Nano-vLLM 源码解读》第 11 篇 · ModelRunner:从 prompt 到 tokennano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。调度器决定“这一步跑哪些 Sequence”,Context 负责把元数据透传到模型每一层。但还有一层缺口:模型的 forward 只认张量(input_ids、positions),不认 Sequence 对象,也不认 block 表。需要一个把请求翻译成张量、再把结果翻译回 token 的中间层。
zhangfeng113312 天前
人工智能·语言模型·显卡·vllm
vLLM + AWQ 是什么,为什么有算力架构要求 为什么v100默认不支持vLLM 负责跑得快,AWQ 负责装得下;vLLM+AWQ 就是在消费级显卡上高效跑大模型的主流方案。