vllm

ouliten7 小时前
笔记·vllm·模型推理
vllm笔记(1):最基础的离线推理vllm是一个知名的推理框架,也是开始尝试接触vllm了。本代码来源https://github.com/vllm-project/vllm/blob/main/examples/offline_inference/basic/basic.py
越努力越幸运~9 小时前
ai·vllm·rocm·ai max+395
AMD AI MAX +395迷你主机 架构1151安装 vllm部署大模型操作记录第一步 操作系统ubuntu24.4.3安装 rocm版本7.1网址https://rocm.docs.amd.com/projects/install-on-linux/en/latest/install/prerequisites.html
Lkygo11 小时前
人工智能·embedding·vllm·sglang
Embedding 和 Reranker 模型目录1. 理论1.1 Embedding 模型:文字的「数字身份证」1.2 Reranker 模型:结果的「智能排序员」
wangqiaowq1 天前
vllm
vllm 部署验证我的Notebook · 魔搭社区1、在魔塔社区 我的NoteBook 创建2、查看python3版本
CodeCaptain1 天前
docker·ai·vllm
通过huggingface的hf download下载的Qwen模型,如何使用用Docker 启动 vLLM 服务如果是通过 huggingface_hub 的 hf download 下载的 Qwen 模型,只需将本地下载路径映射到 vLLM 容器,即可用 Docker 启动 vLLM 服务,步骤如下:
不错就是对2 天前
人工智能·深度学习·神经网络·自然语言处理·chatgpt·transformer·vllm
【agent-lightning】 - 2_使用 Agent-lightning 训练第一个智能体源代码仓库:agent-lightning 源代码仓库论文链接:Agent Lightning 论文个人代码仓库:agent-lightning 个人仓库
技术狂人1682 天前
人工智能·深度学习·面试·职场和发展·vllm
(七)大模型工程落地与部署 10 题!vLLM/QPS 优化 / 高可用,面试实战必备(工程篇)上篇算法优化笔记发完,很多朋友反馈 “4bit 量化和结构化剪枝的话术直接背,终面真的被问到了”—— 其实算法再好,工程落地才是大模型从 “实验室” 走进 “业务” 的关键!现在大厂招大模型工程师,最看重 “能不能把模型稳定上线、扛住高并发”,我带的 100 + 求职者里,能说清 vLLM 部署细节 + 高可用架构 + 故障排查全流程的,offer 转化率直接提升 85%,甚至有学员靠这部分内容薪资谈高了 30%。
喜欢猪猪4 天前
语言模型·架构·vllm
深度解析 vLLM:高性能大语言模型推理引擎的架构、原理与工程实践在大语言模型(LLM)从实验室走向工业落地的进程中,推理阶段已成为制约实际应用的关键瓶颈。尽管模型训练技术日臻成熟(如混合并行、ZeRO、3D并行等),但推理环节仍面临三大核心挑战:
是Yu欸5 天前
数据库·qwen·昇腾·npu·vllm
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新版权声明:本文为原创,遵循 CC 4.0 BY-SA 协议。转载请注明出处。摘要:在大模型多模态与长序列推理需求并进的时代,vLLM 0.11.0 的发布标志着生产级推理引擎的一次关键进化。本文将深度解析其两大核心特性:通过动态视觉分词器集成显著提升 Qwen3-VL 系列模型的视觉问答准确率,以及通过算法与内存管理的协同优化将 Token 选择范围(TOPK)从 1024 推升至新高度,从而解锁更复杂、更精准的长文本生成能力。本文不仅提供特性背后的技术原理,更结合性能对比数据,为开发者提供从理解到应用的
2501_930799246 天前
运维·nginx·vllm
vllm部署时的nginx 配置你想判断这份 Nginx 配置是否正确,结论先明确:**这份 Nginx 配置本身是「语法正确、核心功能有效」的,但它是否能正常配合 vLLM 服务工作,取决于 vLLM 的 `--root-path` 配置是否与之匹配(关键关联点)**。 下面我们分两部分详细分析: ### 一、先肯定:这份配置的合理之处(无语法错误,关键配置到位) 1. **`location /vllm/` 匹配规则合理**:精准匹配所有以 `/vllm/` 开头的请求(对应 vLLM 的 URL 前缀场景),符合反向代理的路径分组
不错就是对6 天前
人工智能·pytorch·深度学习·机器学习·chatgpt·transformer·vllm
【Agent-lightning】 - 1_环境搭建源代码仓库:agent-lightning 源代码仓库论文链接:Agent Lightning 论文个人代码仓库:agent-lightning 个人仓库
AiChiMomo.7 天前
昇腾·vllm·glm4.5·vllm-ascend
【vLLM-模型特性适配】GLM4.5 GLM4.6 w8a8权重量化作者:昇腾实战派智谱GLM4.5、GLM4.6模型推理性能优化,本文提供量化权重导出方法,使用工具是msmodelslim。
DARLING Zero two♡7 天前
华为·gpu算力·vllm
0-Day 极速响应:基于 vLLM-Ascend 在昇腾 NPU 上部署 Qwen2.5 的实战避坑指南资源导航:https://atomgit.com/Ascendhttps://ai.gitcode.com/ascend-tribe/openPangu-Ultra-MoE-718B-V1.1?source_module=search_result_model (建议关注昇腾社区活动或 GitCode/ModelArts 提供的体验实例)
HyperAI超神经8 天前
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
【vLLM 学习】ReproduciblityvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
是Yu欸8 天前
部署·qwen·昇腾·npu·ascend·vllm·多节点
在昇腾8卡上极限部署 Qwen3-235B MoE🌈你好呀!我是 是Yu欸🚀 感谢你的陪伴与支持~ 欢迎添加文末好友🌌 在所有感兴趣的领域扩展知识,不定期掉落福利资讯(*^▽^*)
破烂pan8 天前
vllm
模型格式 × GPU × 显存 × vLLM 参数模板对照表你拿到模型 + GPU → 直接抄参数⚠️ 关键限制:原因:vLLM 的部署不是“模型能不能跑”,而是“参数是否匹配硬件物理现实”
技术路上的探险家10 天前
python·大模型·qwen·vllm
vLLM常用启动参数的详细解释以下是 vLLM(特别是 v0.8+ 版本)常用启动参数的详细解释,包括:说明:以下参数基于 vllm.entrypoints.openai.api_server 启动方式。
每天都要写算法(努力版)11 天前
llm·vllm·kv cache
【混合注意力模型的 KV Cache 设计与统一管理实践解析】近年来,大模型结构快速演进,从传统自注意力(Standard Attention)走向更高效的混合注意力(Hybrid Attention)。例如:
Token_w11 天前
性能优化·vllm
vLLM-Ascend 模型在昇腾 NPU 上的开发、调试与性能优化最近几年来,随着大模型在自然语言处理、代码生成和知识问答等领域的快速发展,0Day 模型凭借其前沿算法和大规模参数优势,成为开发者进行高性能推理和实验的重要选择。但是像这些模型对算力资源的要求都比较高,以往的GPU在部署这类模型的时候容易出现性能下降,算力不足等问题。昇腾 NPU 提供了强大的 AI 加速能力,其高带宽内存架构和算子优化,为大模型推理提供了理想平台。
HyperAI超神经12 天前
人工智能·深度学习·学习·cpu·gpu·编程语言·vllm
【vLLM 学习】ProfilingvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。