技术栈
vllm
IRevers
13 天前
人工智能
·
pytorch
·
深度学习
·
大模型
·
datawhale
·
vllm
·
amdev
【大模型】Gemma4在ROCm和vLLM部署
Gemma 4 是 Google DeepMind 于 2026 年 4 月推出的一系列最新、最强的开源大模型。它的定位非常明确:以极高的"参数效率"为核心,将强大的 AI 能力从云端带到你的手机、电脑等本地设备上。
AI小百科
13 天前
llama
·
vllm
llama.cpp vs vLLM:深度解析与选型指南
作为当前最受关注的两大LLM推理引擎,llama.cpp和vLLM分别代表了极致轻量与高效生产两种截然不同的设计哲学。它们并非简单的“谁更强”的关系,而是面向不同场景、解决不同问题的专业工具。本文从原理、性能、适用场景全维度深入解析。
下班走回家
14 天前
人工智能
·
llama
·
vllm
本地部署大模型的三种方式:Ollama vs vLLM vs llama.cpp
近年来,大语言模型(LLM)的能力不断提升,从 GPT-4 到 Claude 再到开源的 DeepSeek、Qwen 系列,模型的智商越来越高。但对于很多开发者和企业来说,调用云端 API 存在数据隐私、延迟和成本等问题。于是,「本地部署大模型」成了一个越来越热门的话题。
花间相见
14 天前
vllm
【大模型部署01】—— vLLM 部署大模型服务实操:从 0 到 1 搭建 OpenAI 兼容 API
搞大模型部署的人大概都踩过这个坑:模型加载慢、推理吞吐上不去、想接 LangChain 还得自己写适配层。vLLM 这个库说白了就是来解决这些问题的——它把推理引擎和 OpenAI 兼容 API 打包好了,一条命令就能起服务。
有来有去9527
14 天前
人工智能
·
深度学习
·
语言模型
·
gpu算力
·
vllm
【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架
Versatile Infrastructure for Model Evolution — 基于 Megatron + vLLM 的大规模 LLM/VLM 强化学习训练框架
安如衫
15 天前
datawhale
·
vllm
·
amdev
【Hello-ROCm】vLLM 跑通 Gemma4-E4B
学习来源:Datawhale × AMD AI 学习中心 Day1-2 实操任务输出(节选):“AMD Radeon Graphics” 不是型号——VBIOS 没填产品名时的 fallback。容量看 Mem-Usage 第二列:49136 MB ≈ 48 GiB,功耗上限 241W。
毒爪的小新
15 天前
linux
·
人工智能
·
ai
·
语言模型
·
vllm
Linux 环境极速部署 vLLM:从零搭建生产级大模型推理服务
vLLM 是一个开源的、高性能的大语言模型推理与服务框架,吞吐量可达传统方案的8-20倍。GPU:NVIDIA 显卡(推荐 RTX 3090/4060/4090 或 A100/H100)
像风一样自由2020
16 天前
人工智能
·
大模型
·
vllm
·
sglang
17.推理框架横评:vLLM / TGI / TensorRT-LLM / SGLang 全面对比
《大模型知识与部署》系列 · No.17 / 35 适合人群:AI 工程师、后端开发、技术决策者 阅读时间:约 28 分钟
rebibabo
16 天前
人工智能
·
vllm
·
推理加速
·
大模型部署
·
kvcache
KV Cache 与 PagedAttention 详解:理论推导 + RTX 3090 实测数据
前两篇文章分别建立了 BF16 基线和 AWQ INT4 量化实验,我们发现了一个有趣的现象:AWQ 量化把模型权重从 14 GB 压缩到 4 GB,TPOT 降了 65%,但吞吐却翻了一倍多——这个倍数远超 TPOT 降幅能解释的范围。
随便做点啥
17 天前
服务器
·
docker
·
vllm
8×910B4-32G NPU服务器 vLLM-Ascend部署Docker安装报告
项目内容服务器IP10.255.254.65硬件配置8× Huawei Ascend 910B4-32GB
大模型推理
18 天前
embedding
·
vllm
《Nano-vLLM 源码解读》第 18 篇 · Embedding 与 LM Head
nano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。L13 给出 Qwen3 的骨架,L14 到 L17 拆解了注意力子层用到的模块:RMSNorm、RoPE、Linear 家族、注意力本体。还剩残差流的两端——开头把 token id 变成向量的 embed_tokens、结尾把 hidden 变成 logits 的 lm_head。本篇拆解这两个模块。
hdsoft_huge
18 天前
python
·
vllm
·
ollama
·
mcp
部署 Nacos + Ollama + vLLM + MCP 完整图文教程(1Panel 面板,命令行安装两种方式)
架构的介绍在 基于Nacos+Ollama+vLLM+MCP的企业级私有化AI智能体最佳技术方案 中有详细的描述
我是谁??
19 天前
docker
·
容器
·
vllm
ubuntu22.04 通过docker部署vLLM(Qwen3-0.6B)大模型+New API+OpenWebUI
基于如下环境部署大模型(宿主机需要安装驱动,否则docker容器中的驱动无法运行)基于docker通过vLLM部署Qwen3-0.6B大模型
lipku
19 天前
python
·
开源
·
数字人
·
vllm
·
实时数字人
LiveTalking 更新:集成 vLLM-Omni TTS服务
LiveTalking 最近完成了一次重要的基础设施升级——引入 vLLM-Omni 作为 TTS 推理引擎,并在单张 RTX 3090 上实现了 130ms 首包延迟、13GB 显存占用的流式语音合成。本文从技术角度梳理这次更新的设计思路与实现细节。
嘉陵妹妹
20 天前
vllm
vLLM 源码可编辑模式安装与调试记录
本文记录如何在 AutoDL 环境中 clone vLLM 源码,并使用 uv pip install -e . 以可编辑模式安装,方便后续源码调试和二次开发。
梦雨羊
20 天前
vllm
vllm单推理测试
官方匹配关系截至 2026 年 6 月 8 日,推荐先使用稳定版:官方表格在:编辑vLLM-Ascend v0.18.0 安装文档
大模型推理
21 天前
vllm
《Nano-vLLM 源码解读》第 16 篇 · Linear 投影
nano-vllm 用千行代码拆解 vLLM 核心,是读懂大模型推理最快的捷径。上一篇里 RoPE 旋转的 q、k,是从 self.qkv_proj(hidden) 一次投影、再 split 出来的。q、k、v 本是三个独立的线性投影,nano-vllm 把它们合并成了一次。
嘉陵妹妹
21 天前
vllm
VLLM auto DL环境配置
你现在是 AutoDL 容器(root 用户、base conda 环境),报错 bash: uv: command not found 就是:还没装 uv,或者装了但不在 PATH 里。下面直接给你在这个容器里能一步到位的安装命令