vllm

骚戴2 天前
java·人工智能·python·大模型·api·vllm
DeepSeek V3 & Llama 3 推理避坑指南:自建 vLLM 集群 vs API 网关架构深度对比前言:2025年是大模型“百模大战”转入“推理落地”的关键一年。DeepSeek V3、Llama 3 70B 等开源权重的发布,让开发者有了更多选择。但当真正试图将这些模型部署到生产环境时,我们不仅要面对复杂的 CUDA 依赖,还要处理显存碎片、KV Cache 优化以及高昂的硬件成本。本文将从架构师视角,深度拆解目前主流的两种推理方案:自建高性能推理集群 与 使用 API 聚合网关。
ASIAZXO2 天前
vllm
基于llamafactory微调与vllm部署的LLM情感模型示例环境需求:并将data_info.json中添加数据集:3. 写一个app.py进行验证 (注意:response中的model需要指定你merge后的模型绝对路径,不然在使用streamlit对话框时会报错: Error code: 404 - {‘error’: {‘message’: ‘The model Qwen1___5-1___8B-Chatdoes not exist.’, ‘type’: ‘NotFoundError’, ‘param’: None, ‘code’: 404}})
skywalk81633 天前
人工智能·vllm·scnet·deepseek-coder
SCNet 双DCU异构卡vllm推理部署DeepSeek-Coder-V2-Lite-Instruct前面已经测试过了qwen 32b和Qwen3-30B-A3B两个模型的VLLM推理部署,并在Auto-Coder中进行试用。现在开始在SCNet的DCU环境中,尝试vllm推理部署DeepSeek-Coder-V2-Lite-Instruct
平凡之路无尽路3 天前
人工智能·设计模式·自然语言处理·nlp·aigc·vllm
智能体设计模式:构建智能系统的实践指南欢迎来到《智能体设计模式:构建智能系统的实践指南》。本质上,智能体化系统是一种计算实体,旨在感知其环境(包括数字环境和潜在的物理环境),基于这些感知和一组预定义或习得的目标做出明智决策,并自主执行行动以实现这些目标。与遵循严格的分步指令的传统软件不同,智能体具有一定程度的灵活性和主动性。
skywalk81634 天前
vllm
尝试升级SCNet DCU异构系统VLLM版本(失败)先上结论,cupy这个软件包没装上去....所以升级失败首先确认系统系统是去找DTK-25.04.2 ubuntu22.40
benben0444 天前
vllm
vLLM推理引擎教程4-离线推理功能本文通过设置vLLM属性实现推理性能优化。最基本的批量文本生成。代码:代码:准备工作:从modelscope下载Qwen2.5-1.5B-apeach模型,该模型用于文本分类任务(2分类),别的模型会报错。
百度智能云技术站6 天前
芯片·vllm·百度百舸
百度百舸 X 昆仑芯 | 开源 vLLM-Kunlun Plugin,快速适配新模型、跑出极致性能为解决国产芯片部署开源大模型的效率与性能瓶颈,百度百舸联合昆仑芯正式推出 vLLM-Kunlun Plugin —— 一款面向百度昆仑芯 XPU 的高性能 vLLM 平台插件,该 Plugin 现已全面开源。
benben0446 天前
vllm
vLLM推理引擎教程3-分离式Prefillprefill定义:它是LLM推理的第一阶段,将用户输入的完整prompt(比如“你好,今天天气怎么样?”)一次性通过整个模型前向传播,计算出所有token的隐藏状态(hidden states)和注意力所需的KV缓存(Key-Value Cache),为后续逐个生成新token做准备。
mqiqe6 天前
人工智能·vllm
vLLM(vLLM.ai)生产环境部署大模型vLLM 是一款高性能的大语言模型推理框架,以高吞吐量、低延迟和显存高效利用为核心优势。在生产环境部署 vLLM 需兼顾稳定性、可扩展性、监控运维和性能优化,以下是完整的部署方案。
禁默7 天前
vllm
vLLM-Ascend 部署与推理服务化实战vLLM 是目前大模型推理领域最火热的高性能推理框架之一,以其 PagedAttention 技术著称。而 vLLM-Ascend 则是 vLLM 在华为昇腾 NPU 上的硬件插件,使得昇腾算力能够通过 vLLM 释放强大的推理性能。
mqiqe7 天前
人工智能·kubernetes·vllm
vLLM(vLLM.ai)K8S生产环境部署Qwen大模型✅ 核心原则:Kubernetes 集群要求:Dockerfile(Qwen-7B-AWQ 示例):🔑 关键参数说明:
奔跑中的小象7 天前
服务器·人工智能·uos·vllm·统信·海光k100
统信UOS V2500服务器操作系统+海光K100 AI卡环境下VLLM服务部署服务器: 曙光 X7850H0(256 核+ 8张A100+1.5T内存) 服务器操作系统: UOS V2500 DTK版本: 25.04.1 Rocm版本: 6.3.13 VLLM版本: 0.8.5 Python版本: 3.10.16 注:海光vllm安装文件依赖numa库与python3.11版本不兼容,因此python选择3.10版本
deephub8 天前
人工智能·大语言模型·vllm·kv缓存
LMCache:基于KV缓存复用的LLM推理优化方案LLM推理服务中,(Time-To-First-Token) 一直是个核心指标。用户发起请求到看见第一个token输出,这段时间越短体验越好,但实际部署中往往存在各种问题。
Yeliang Wu9 天前
ubuntu·调优·推理·vllm
vLLM调优:从原理到Ubuntu 22.04实践作者:吴业亮 博客:wuyeliang.blog.csdn.netvLLM是由UC伯克利等机构开发的高性能LLM推理/服务框架,核心优势是超高吞吐、低延迟、显存利用率高,其性能优势源于核心技术创新,调优也需围绕这些核心机制展开。本文将从原理入手,逐步讲解Ubuntu 22.04下的vLLM环境搭建、全维度调优策略及实战案例。
Yeliang Wu11 天前
智能体·vllm·langgraph
基于LangGraph的聊天机器人模拟评估系统(Ubuntu 2204 + Conda + vLLM)作者:吴业亮 博客:wuyeliang.blog.csdn.net将HF格式的大模型(如Llama-2-7B-chat-hf)放到本地路径,并修改config.py中的MODEL_PATH为实际路径。
TGITCIC15 天前
transformer·llama·ai大模型·vllm·llama.cpp·大模型ai
LLM推理引擎选型实战指南:用Transformers、llama.cpp 还是 vLLM 之争大模型推理引擎的选择往往决定着项目成败,就像为不同任务选择操作系统一样关键。在实际工作中,笔者发现很多开发者面对琳琅满目的推理引擎时容易陷入选择困难。有的团队在原型阶段就过早引入复杂引擎导致开发效率低下,有的则在生产环境仍使用基础框架造成资源浪费。经过多次项目实践,笔者认识到选择推理引擎需要综合考虑硬件条件、业务场景和技术团队能力等多重因素。本文将基于实战经验,系统分析主流推理引擎的技术原理和适用场景,帮助读者建立清晰的选型框架。特别值得关注的是,每个引擎背后都代表着不同的设计哲学,理解这些底层逻辑比单纯
JadenOliver16 天前
vllm·dcu·海光·z100l·qwen-2.5-32b·全量微调
基于海光8张Z100L算力服务器,vLLM 部署全量微调过的 qwen2.5-32B大模型。在客户提供的 8 * Z100L 算力服务器上,部署全量微调过的 qwen2.5-32B 大模型。说明:输出结果的第1列(例如: 37:00.0、3a:00.0) 是 显卡对应的 PCI 设备地址。
hu_nil19 天前
python·vllm
LLMOps-第十三周结合金融、医疗数据,微调金融模型及医疗模型此次环境搭建是在AutoDL官方网站上搭建的实例,使用的基础镜像为PyTorch/2.8.0/3.12(ubuntu22.04)/12.8
wuli_滔滔20 天前
vllm·ollama·qwen2.5·llama 3.1
Qwen2.5、Llama 3.1轻量模型本地化部署指南:从环境配置到企业级实战目录摘要1 技术原理与架构设计1.1 轻量模型本地化部署的核心价值1.2 本地化部署架构设计理念1.3 核心算法与性能特性