技术栈
vllm
AIDF2026
2 天前
运维
·
服务器
·
推理
·
vllm
我们看一份报告的时候主要看什么
这是使用vllm里面的压测脚本测试出来的数据,并发量分别为20和1在看数据前,先明确三个最关键的指标含义(主要看什么):
张忠琳
2 天前
ai
·
架构
·
vllm
【vllm】(八)vLLM v1 Simple KV Offload — 系统级架构深度分析之二
第70-155行:SimpleCPUOffloadScheduler.init逐行解析:第156-184行:_derive_cpu_config
一只独角兽
3 天前
自然语言处理
·
gru
·
transformer
·
vllm
DeepSeek-V4-Pro 部署实战指南:H100/H200/B200/B300/GB200/GB300 全硬件配置详解
来源: recipes.vllm.ai 官方配置DeepSeek-V4-Pro 是 DeepSeek V4 预览系列的旗舰模型,拥有 1.6T 总参数 / 49B 激活参数 的 MoE 架构,checkpoint 高达 960GB。本文基于 vLLM 官方 Recipes 配置,详细介绍六种主流 GPU 平台的部署方案。
张忠琳
3 天前
ai
·
架构
·
vllm
【vllm】(六)vLLM v1 Sample — 模块超深度分析之一
分析对象:vllm/vllm/v1/sample 代码规模:14 Python 文件(含2个__init__.py),4,133 行有效代码 分析日期:2026-04-22
蛐蛐蛐
4 天前
vllm
在昇腾Atlas 300I Duo+openEuler上部署vLLM并进行推理的流程(一)
这篇博客也是参考了一下别人的文章:https://hwcomputing.csdn.net/69da751c0a2f6a37c59ee280.html
Anesthesia丶
5 天前
pytorch
·
python
·
lora
·
llm
·
qwen
·
vllm
Qwen2.5-1.5b 模型部署与LORA训练笔记
这两天心血来潮,想了解一下小模型的部署与训练的过程,刚好家里有张3080魔改20g可以试试水于是说干就干~在这里简单记录以下相关的笔记。
张忠琳
7 天前
ai
·
架构
·
vllm
【vllm】(五)vLLM v1 Attention — 模块超深度分析之五
AMD ROCm平台的标准注意力后端:forward() 方法:这是attention模块中最大的单个后端文件。
张忠琳
7 天前
人工智能
·
深度学习
·
ai
·
架构
·
vllm
【vllm】(五)vLLM v1 Attention — 模块超深度分析之二
selector.py(165行)是后端选择的入口模块,负责根据运行时配置选择最优注意力后端。设计意图:
Zzj_tju
7 天前
人工智能
·
语言模型
·
自然语言处理
·
vllm
大语言模型部署实战:从 Ollama、vLLM 到 SGLang,本地服务到底怎么搭?
前面这条主线已经把几个关键问题往前推进了一步:接下来,就进入很多团队真正开始落地时绕不开的一步:模型有了、权重有了、量化格式也选了,本地服务到底该怎么搭?
youzj0925
7 天前
vllm
vllm安装到dgx spark上
docker pull nvcr.io/nvidia/vllm:26.01-py3#docker run -it --gpus all -p 8000:8000 \ nvcr.io/nvidia/vllm:${LATEST_VLLM_VERSION} \ vllm serve "Qwen/Qwen2.5-Math-1.5B-Instruct"
张忠琳
8 天前
ai
·
架构
·
vllm
【vllm】(二)vLLM v1 Engine — 模块超深度逐行分析之二
本文档对 vllm/v1/engine/ 子目录中的输入处理、输出处理、反分词器、Logprobs计算、并行采样及类型定义等六大模块进行逐行级深度剖析。
张忠琳
8 天前
ai
·
架构
·
vllm
【vllm】(四)vLLM v1 Worker — 模块超深度逐行分析之三
源文件:gpu_input_batch.py,1085 行InputBatch 是 GPU 推理批次的持久化状态容器,它维护了一个虚拟连续数组——逻辑上紧凑,物理上可能因请求增删而存在空洞(通过 condense() 消除)。
张忠琳
8 天前
ai
·
架构
·
vllm
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之二
逐行解释:_select_waiting_queue_for_scheduling 逻辑(行1576-1586):
张忠琳
8 天前
ai
·
架构
·
vllm
【vllm】(三)vLLM v1 Core — 模块超深度逐行分析之三
kv_cache_utils.py(1693行)是 vLLM v1 KV Cache 管理的基础设施层,定义了:
张忠琳
8 天前
ai
·
架构
·
vllm
【vllm】(四)vLLM v1 Worker — 模块超深度逐行分析之二
GPUModelRunner 通过 多重 Mixin 组合 获得额外能力:这种组合优于多重继承,因为 Mixin 不定义 __init__,不引入菱形继承问题。
张忠琳
9 天前
ai
·
架构
·
vllm
【vllm】vLLM v1 KV Offload — 模块超深度逐行分析之一(七)
分析对象:vllm/vllm/v1/kv_offload 代码规模:16 Python 文件(含4个空__init__.py),1,888 行有效代码
张忠琳
9 天前
ai
·
架构
·
vllm
【vllm】vLLM v1 Attention — 系统级架构深度分析(五)
分析范围:vllm/v1/attention/ 目录,53个Python文件,~25.8K行代码。 Attention 是 v1 推理系统的"计算核心"——所有 GPU 上实际发生的 Attention 计算都由本模块驱动。
张忠琳
9 天前
ai
·
架构
·
vllm
【openclaw】OpenClaw Flows 模块超深度架构分析
分析版本:2026-04-20 | 代码目录:src/flows/ | 风格:Dark Terminal | 源码行数:2,430 行(9 文件,不含测试)
张忠琳
9 天前
ai
·
架构
·
vllm
【openclaw】OpenClaw Daemon 模块超深度架构分析
分析版本:2026-04-20 | 代码目录:src/daemon/daemon 模块是 OpenClaw 的服务守护进程管理层,负责将 Gateway(和 Node Host)进程注册为操作系统原生的后台服务,实现开机自启、崩溃自动重启、统一启停控制。核心职责包括:
Shining0596
9 天前
人工智能
·
语言模型
·
自然语言处理
·
云原生
·
qemu
·
vllm
·
华为昇腾
QEMU 编译开发环境搭建
目录系统要求安装依赖Ubuntu / DebianFedoraArch Linux获取源码从官方仓库克隆