vllm

~kiss~3 天前
人工智能·语言模型·vllm
高性能大语言模型推理与服务框架(推理引擎)vLLMvLLM 不是一个大模型本身,而是一个高性能大语言模型推理与服务框架(推理引擎),专门解决大模型在 GPU 上速度慢、显存占用高、并发能力差的问题vLLM
hit56实验室3 天前
vllm
明明已经把vllm被强制kill了,但是仍然占用GPU显存pkill -9 -f vllmpkill -9 -f raypkill -9 -f python
陈 洪 伟4 天前
vllm·mla
大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力abstract MLA就是压缩KV减少显存占用 增加向量维度表示位置信息,以支持矩阵乘法融合,视频地址:DeepSeek-v2 MLA 原理讲解 多头潜在注意力怎么解决旋转位置编码的问题 解决方式就是给Q K向量额外增加一些维度来表示位置信息,
陈 洪 伟5 天前
vllm·prefix caching
大模型推理引擎vLLM(12): vLLM Prefix Caching以及eviction的相关问题和代码该博客是看学习视频时的简单笔记,感兴趣的可以直接看原视频:[EP05] vllm从开源到部署,Prefix Caching和开源答疑
深刻如此5 天前
大语言模型·文本生成·vllm·chainlit
Qwen2.5-7B-Instruct实战教程:Chainlit集成WebSocket实时通信增强你可能已经听说过通义千问系列,但Qwen2.5-7B-Instruct这个新名字,代表的不只是版本更新,而是一次能力跃迁。它不是简单地把参数调大、训练时间拉长,而是从知识覆盖、逻辑推理、结构化理解到多语言支持,做了系统性升级。
长路 ㅤ   6 天前
模型部署·vllm·xinference·推理引擎·ai框架
快速了解VLLM推理引擎博主介绍:✌目前全网粉丝4W+,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。
陈 洪 伟6 天前
vllm
大模型推理引擎vLLM(9): vLLM 基本代码结构这篇博客是在看[EP01][精剪版] vllm源码讲解,基本代码结构这个学习视频时做的简单笔记,感兴趣的可以直接去看原视频。
SmartBrain6 天前
开发语言·人工智能·算法·vllm
技术总结:VLLM部署Qwen3模型的详解目录一、系统环境要求与准备1.1 硬件环境要求1.2 软件环境要求二、VLLM 安装与配置2.1 创建虚拟环境
陈 洪 伟6 天前
分布式·vllm
大模型推理引擎vLLM(10): vLLM 分布式推理源码结构解析这篇博客是在看[EP02][精剪版]分布式推理优化,vllm源码解读这个学习视频时做的简单笔记,感兴趣的可以直接去看原视频。
鱼总美签8 天前
ai助手·vllm·本地大模型·clawdbot
ClawdBot保姆级教学:解决Gateway not reachable错误的5种方法ClawdBot 是一个真正属于你自己的个人 AI 助手。它不依赖远程API、不上传隐私数据、不按调用次数收费——所有推理都在你自己的设备上完成。你可以把它理解成“装在你电脑里的 Siri + Copilot + Notion AI 的混合体”,但更自由、更透明、更可控。
Suryxin.10 天前
人工智能·python·深度学习·ai·vllm
从0开始复现nano-vllm「llm_engine.py」这段代码实现了一个轻量级且高效的大语言模型推理引擎的核心控制器。它的主要作用是充当整个文本生成任务的“总指挥”,对外提供了一个简单易用的批量文本生成接口,对内则完美封装并统筹了所有复杂的底层运行机制——包括文本数据的分词转换、多 GPU 协同的张量并行分布式计算、以及优化系统吞吐量与显存的连续批处理调度,从而驱动庞大的 AI 模型稳定、高效地完成从接收用户请求到最终输出生成文本的完整推理生命周期。
Suryxin.10 天前
人工智能·pytorch·深度学习·ai·vllm
从0开始复现nano-vllm「model_runner-py」下半篇之核心数据编排与执行引擎调度prepare_prefill 函数的作用,本质上是为大模型推理中的 prefill 阶段做一次完整的数据整理与运行时环境构建,它并不是简单地把多个序列拼接起来,而是在一个支持 block 级 KV cache、prefix cache 复用以及 FlashAttention 的高性能推理框架中,将多个变长、可能部分已缓存的序列,转换成一次可以直接送入 GPU kernel 执行的结构化输入。
shenxianasi12 天前
人工智能·机器学习·计算机视觉·语言模型·自然语言处理·vllm·audiolm
【论文精读】Language Is Not All You Need: Aligning Perceptionwith Language Models目录一、前言二、KOSMOS-11.输入表示2.MLLMs为什么MAGNETO在Transformer的每个子层(即MHA和FFN)中都引入一个额外的LayerNorm?为什么这样设计?
Suryxin.14 天前
人工智能·pytorch·深度学习·vllm
从0开始复现nano-vllm「ModelRunner.capture_cudagraph()」为什么需要 CUDA Graph?在 LLM 推理等小算子、高频次的场景中,CPU 逐个调度任务的开销往往比 GPU 实际计算的时间还要长,导致 GPU 大量空闲等待;CUDA Graph 通过将一系列 GPU 操作“录制”为静态图,在执行时只需一次 CPU 指令即可驱动整个计算流程,从而彻底消除 CPU 调度瓶颈,填满 GPU 流水线,显著降低推理延迟。
lwprain14 天前
vllm·gcc13·alma linux
alma8.10中使用gcc13并安装vllm其实初衷是想在alma中使用vllm。 但是安装编译时提示出错,因为alma中是安装的gcc8.4,所以要想办法解决这个问题。 1、此版本不能再使用crb了,这个已经弃用了,使用powertools。
Suryxin.14 天前
人工智能·python·深度学习·机器学习·vllm
从0开始复现nano-vllm「model_runner.py」上半篇之初始化分布式推理环境定义了一个名为 ModelRunner 的核心类,用于在 nanovllm 框架下高效地加载和运行 Qwen3 大语言模型,其主要作用是构建一个支持多 GPU 张量并行(Tensor Parallelism)的高性能推理引擎。
Boxsc_midnight15 天前
服务器·python·vllm
【vLLM服务器并发能力测试程序】写一个python小程序来进行并发测试由于配置好了vLLM服务器,想知道它和Ollama在并发能力上的处理差距,所以写了一个简单的并发测试程序来看看各自的处理能力(术语是吞吐量)
Suryxin.15 天前
深度学习·ai·vllm
从0开始复现nano-vllm「 utils/contex.py」这段代码定义了一个全局上下文管理器(Global Context Manager)。它的核心作用是**“传纸条”**。在深度学习框架(如 PyTorch)与底层高性能计算核心(CUDA Kernels,比如 FlashAttention 或 PagedAttention)之间,有很多复杂的元数据(比如这句话有多长、显存存在哪里)需要传递。
百度智能云技术站15 天前
人工智能·开源·vllm·百度百舸
百度百舸 Day0 完成昆仑芯和智谱 GLM-5 适配,实现「发布即可用」今日,智谱正式发布新一代大模型 GLM-5。与此同时,百度百舸 Day0 完成昆仑芯 P800 和 GLM-5 适配,用户可以在 vLLM、SGLang 等推理框架上第一时间进行业务部署。
钱彬 (Qian Bin)16 天前
embedding·vllm·多模态检索·qwen3-vl
基于Qwen3-VL-Embedding-2B与vLLM构建高精度多模态图像检索系统在多模态人工智能迅速发展的今天,图像检索技术已从传统的基于元数据匹配,演进为基于内容的深度语义检索。构建高效、精准且具备语义理解能力的图像检索系统,是当前计算机视觉与自然语言处理交叉领域的重要课题。本文档旨在详细阐述如何利用最新的Qwen3-VL-Embedding-2B模型,结合vLLM推理框架与微服务架构,构建一个工业级的图像检索系统。