vllm

x²+(y-√³x²)²=11 天前
linux·ubuntu·vllm
Linux 或者 Ubuntu 离线使用 vllm启动大模型它表示:虽然模型实际路径是 /root/.cache/…,但对外暴露的模型名是 QwQ-32B要让 MODEL_NAME = "QwQ-32B" 成功调用你的本地模型,你需要在启动 vLLM 服务时加上一个参数::
HyperAI超神经2 天前
人工智能·深度学习·学习·机器学习·gpu·tvm·vllm
【TVM教程】理解 Relax 抽象层TVM 现已更新到 0.21.0 版本,TVM 中文文档已经和新版本对齐。Apache TVM 是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。
晨欣2 天前
google·openai·nvidia·vllm·llama.cpp·gpt-oss-20b·gemma4
单卡 48GB 实测:Gemma 4 26B A4B、Gemma 4 31B、gpt-oss-20b 三模型部署与并发对比关键词: Gemma 4、gpt-oss-20b、MoE、Dense、llama.cpp、vLLM、GGUF、单卡部署、长上下文、并发测试、L20 48GB
weixin_6682 天前
vllm
在DGX-Spark上多模态模型gemma-4-31B-it vLLM部署模型:gemma-4-31B-it gemma-4-31B-itURL:http://localhost:8005/
认真的薛薛3 天前
运维·数据库·vllm
GPU运维:vllm启动大模型参数解析用 vLLM 启动一个大模型 API 服务,相当于把 DeepSeek 大模型变成一个可调用的接口(类似 OpenAI API)。
handsomestWei3 天前
vllm·推理框架·kv cache·sglang
KV Cache与vLLM、SGLang推理框架全文链接 KV Cache与vLLM、SGLang推理框架本文介绍 KV Cache 在大模型推理中的地位与资源估算、vLLM 与 SGLang 的异同、二者对 KV Cache 的利用方式、使用策略与首字延迟的关系,以及基于两者部署小模型并进行对话验证的步骤。
lin_dec+4 天前
nlp·transformer·vllm·大模型推理·kv cache
KV Cache:大模型推理加速的关键技术目录1、为什么需要 KV Cache?先搞懂大模型的文本生成模式2、不使用 KV Cache 时,到底有多少冗余计算?
deephub5 天前
人工智能·python·深度学习·大语言模型·vllm
从零构建 Mini-vLLM:KV-Cache、动态批处理与分布式推理全流程HuggingFace 的是个黑盒,而且这个黑盒藏了一个代价很高的问题,每一个解码步骤它都从头开始对整个 prompt 做一次完整的注意力计算。每一个 token 都是如此。注意力的开销以 O(N²) 的速度随序列长度增长,在小规模下完全察觉不到,一旦上了真实负载就会出现问题。
西西弗Sisyphus6 天前
langchain·prompt·transformer·vllm·enforce_eager
大模型运行的 enforce_eager 参数flyfishenforce_eager=True: vLLM 完全走纯 PyTorch Eager 执行。 每次生成 token 都正常调用 model.forward(),没有捕获 Graph。保留了所有 kernel launch 开销。 Eager Mode(急切模式 / 即时执行模式): 代码写到哪里,PyTorch 就立刻执行到哪里。 每调用一次 model(x),就立即把所有操作(kernel)逐个发给 GPU 执行,Python → C++ → CUDA Driver 的调用链是实时的、一
诸神缄默不语6 天前
llm·大规模预训练语言模型·vllm·ollama
本地LLM部署工具(写给小白的LLM工具选型系列:第一篇)诸神缄默不语-个人技术博文与视频目录本地部署LLM的优势:本地部署LLM的劣势:本文主要考虑的是在你自己的电脑上运行LLM推理服务,但是下文会介绍的llama.cpp、vllm等工具事实上在企业级生产服务中也很常用。功能不仅局限于个人消费级使用。
克里斯蒂亚诺更新6 天前
vllm
RAG+Vllm的知识库部署检索方案pythonpython
Peter·Pan爱编程7 天前
人工智能·openvino·vllm
OpenClaw进阶实战(二):本地模型量化与加速——GGUF、vLLM、OpenVINO实战本系列为《OpenClaw进阶实战:技能精深 × 电商全栈 × 跨平台工作流》第二篇 前置条件:已完成OpenClaw基础安装与配置,了解模型配置方式
执笔论英雄8 天前
java·学习·vllm
【vllm】vllm根据并发学习调度是的,并发性特指 running 队列中的请求数量,即 len(self.running)。这个数量受 max_num_seqs 硬性限制: 1
共绩算力8 天前
人工智能·vllm·共绩算力
vLLM高吞吐推理系统全景拆解很多人用 vLLM,停留在两层认知:它很快它支持很多大模型部署特性但如果你继续往下问一句: 它到底为什么快,内部到底是怎么组织起来的? 答案就不再是一个命令行参数,而是一整套围绕 调度、KV Cache、连续批处理、多进程执行 和 分布式服务 搭起来的系统工程。
HyperAI超神经8 天前
人工智能·深度学习·学习·机器学习·gpu·orc·vllm
在线教程丨华中科大与小红书 hi lab开源dots.mocr,SOTA级OCR模型完美还原文档结构,图形也能转 SVG面对海量文档中的复杂图表、表格和多语言内容,传统 OCR 常常力不从心,主要原因是其核心能力集中于文本识别,往往将图表、公式、UI 布局等复杂视觉元素简单裁剪为图像,导致文档结构被破坏、语义关系丢失,难以满足高质量信息提取与重建需求。
知福致福10 天前
vllm
向vllm部署的qwen3服务发送请求时禁用thinking模式curl http://localhost:8000/v1/chat/completions -H “Content-Type: application/json” -d ‘{ “model”: “Qwen/Qwen3-8B”, “messages”: [ {“role”: “user”, “content”: “Give me a short introduction to large language models.”} ], “temperature”: 0.7, “top_p”: 0.8, “to
做个文艺程序员10 天前
人工智能·vllm
vLLM 部署避坑全记录:从显存 OOM 到推理延迟优化适用版本:vLLM 0.18.0,CUDA 12.9,Python 3.12(推荐) 适用模型:Qwen2.5-7B / 14B、DeepSeek-R1-Distill、Qwen3 、Qwen3.5 系列
weixin_4462608510 天前
vllm
wsl安装vllm日记curl http://127.0.0.1:6666/v1/models 无反应nvidia-smi,瞬间破案了!这就是你 vLLM 一直假死、curl 没反应 的终极真相! 🚨 终极结论:显存炸了!RTX4090D 24G 跑 20B MXFP4 模型根本不够 显卡:RTX 4090D 24GB模型:GPT-OSS-20B MXFP4 量化 显存现状 总显存:24564MB 已占用:24023MB 剩余:不到 500MB! 这意味着:✅ 模型能加载进去✅ 服务能显示启动成功❌ 没有任何剩余显存做推理
陕西小伙伴网络科技有限公司13 天前
vllm
AMD显卡运行qwen3.5-使用VLLMdocker pull docker.1ms.run/vllm/vllm-openai-rocm:v0.18.0
柯南小海盗14 天前
语言模型·vllm·sglang
大模型GPU选型与部署资源评估完全指南:从RTX 4090到H20,从vLLM到SGLang随着大语言模型(LLM)技术的快速落地,硬件选型与资源规划成为企业和开发者落地 AI 应用的核心挑战。本次报告针对当前市场主流的 GPU 型号,对比其在模型训练与推理场景下的差异,同时深入分析主流推理框架 vLLM 与 SGLang 的适用场景,并提供完整的资源评估方法,帮助开发者根据业务需求做出最优决策。