vllm

wuli_滔滔20 小时前
vllm·ollama·qwen2.5·llama 3.1
Qwen2.5、Llama 3.1轻量模型本地化部署指南:从环境配置到企业级实战目录摘要1 技术原理与架构设计1.1 轻量模型本地化部署的核心价值1.2 本地化部署架构设计理念1.3 核心算法与性能特性
GPUStack3 天前
大模型·vllm·ai网关·sglang·高性能推理
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来,推理框架加速需求暴涨,推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎,以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈,相比年初,部分前沿框架的推理性能提升已达 3 到 4 倍以上。
码二哥6 天前
ocr·fastapi·vllm·豆包·deepseek-ocr
借助豆包将vllm推理deepseek-ocr改成web服务访问本次的试验环境:查看远程服务器上cuda版本号已经安装了deepseek-ocr, vllm本次的需求是,希望将通过vllm推理deepseek-ocr的方式,改成web方式。 提高效率。 免的每次请求,都得重新加载deepseek-ocr模型。
七夜zippoe7 天前
vllm·ollama·qwen2.5·gradio web·企业级api
基于Qwen2.5-7B-Chat的本地化部署实战——从模型原理到企业级应用目录摘要1. 技术原理与架构设计1.1 Qwen2.5模型架构解析1.2 系统架构设计1.3 核心算法实现
Stara051113 天前
计算机视觉·docker·ocr·transformers·vllm·deepseek·光学符号识别
DeepSeek-OCR私有化部署—从零构建OCR服务环境光学字符识别(OCR)技术经历了从传统图像处理到深度学习的重要演进。早期OCR系统依赖于手工设计的特征提取器和规则引擎,在规整文档上表现良好,但在复杂场景下面临巨大挑战。随着深度学习技术的发展,特别是CNN和Transformer架构的兴起,OCR技术实现了质的飞跃。DeepSeek-OCR正是在这一技术背景下应运而生,代表了当前OCR领域的最先进水平。与传统OCR系统相比,DeepSeek-OCR摒弃了复杂的规则引擎,采用端到端的深度学习架构,在大规模多语言文本数据上训练,实现了更高的识别准确率和更强的
破烂pan15 天前
llm·模型部署·vllm
主流 LLM 推理/部署框架指标对比主流 LLM 推理/部署框架关键指标上做了对比:吞吐量(Tokens/s)、首 token 响应时间(TTFT,s)、单 token 生成时间(TPOT,ms)、并发能力、推理时 TOKEN 生成效率。注意:这些指标强烈依赖于:模型大小(13B/70B/Chat-style/decoder-only)、硬件(H100/GH200/Blackwell/H20/CPU)、量化与 KV-cache 支持、并发请求分发策略等
skywalk816323 天前
人工智能·pytorch·python·vllm
老显卡老cpu用vllm推理大模型失败Intel(R) Xeon(R) CPU E5-2643 v2先上结论,显卡太老,无法装cuda12.6cpu太老,不支持AVX2, ,所以实践失败。它会把torch一起安装
远上寒山1 个月前
ocr·vllm·文档解析·deepseek·deepseek-ocr·视觉-文本压缩
DeepSeek-OCR 论文精读与实践:用“光学上下文压缩”把长文本变成图片,再由 VLM 高效还原关键词:DeepSeek-OCR、视觉-文本压缩、长上下文、MoE、OCR、文档解析、vLLM、Transformers
weixin_438077491 个月前
llm·vllm·qwen2.5-vl
windows10安装WSL2 & ubuntu24.04中安装vLLM & vLLM中部署Qwen2.5-VL本文记录下,如何使用vLLM部署模型。安装教程参考视频教程:https://www.bilibili.com/video/BV1BijSzfEmQ/。由于vLLM只支持Linux操作系统,所以首先安装WSL2。
hu_nil1 个月前
python·vllm
LLMOps-第十一周作业大模型分布式训练;此次环境搭建是在AutoDL官方网站上搭建的实例,使用的基础镜像为PyTorch/2.8.0/3.12(ubuntu22.04)/12.8
deephub1 个月前
人工智能·python·大语言模型·1024程序员节·vllm
vLLM 性能优化实战:批处理、量化与缓存配置方案很多团队把它vLLM 当 demo 跑,但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒,哪些参数真正有用,以及怎么在延迟和成本之间做取舍。
九章云极AladdinEdu1 个月前
vllm·kv缓存·推理优化·pagedattention·连续批处理·吞吐量对比
大模型推理服务优化:vLLM的PagedAttention与连续批处理实现大型语言模型(LLM)推理面临两大核心矛盾:计算密度高(单次推理需数十亿次浮点运算)与内存消耗大。以LLaMA-13B为例,仅KV缓存(Key-Value Cache)存储单个序列就可能占用1.7GB内存,而传统推理系统(如HuggingFace Transformers、FasterTransformer)由于固定内存预分配策略,导致60%-80%的内存因碎片化和过度保留而被浪费。
羊城迷鹿1 个月前
昇腾·npu·vllm
华为昇腾NPU驱动问题排查与vLLM部署踩坑记录本文记录了华为NPU服务器驱动失效问题的完整排查与解决过程。服务器重启后npu-smi info命令失效,经诊断发现是内核自动升级导致当前运行的5.15.0-153版本缺少Ascend驱动模块。通过对比/lib/modules目录下各内核版本的驱动文件,确认5.15.0-144-generic版本包含完整的24个驱动模块。随后修改GRUB配置回退至该内核版本,并通过锁定内核包和禁用自动升级机制防止问题再次发生。在尝试部署vLLM框架时,遇到了NumPy版本冲突、缺少依赖模块、C++编译环境配置、CANN
MonkeyKing_sunyuhua1 个月前
vllm
怎么计算vllm启动大模型的并发数🧠 一、影响 vLLM 并发请求数的关键因素⸻🔍 二、实时查看当前并发请求数 / 队列情况vLLM 本身有监控接口与日志输出,可以直接观察:
vincent&lin2 个月前
人工智能·vllm
vLLM - GPUModelRunnerGPUModelRunner是真正执行模型前向传播的组件,主要的功能:load_model完成模型的加载:
居7然2 个月前
人工智能·大模型·llama·大模型训练·vllm
如何高效微调大模型?LLama-Factory一站式解决方案全解析文较长,建议点赞收藏,以免遗失。更多AI大模型开发 学习视频/籽料/面试题 都在这>>Github<< >>Gitee<<
小毕超2 个月前
vllm·evalscope·qwen3-30b-a3b
使用 EvalScope 对 vLLM 私有化部署 Qwen3-30B-A3B 模型性能压测EvalScope 是 ModelScope倾力打造的官方模型评估与性能基准测试框架,专为满足多样化的模型评测需求而设计,为开发者提供一站式解决方案。无论是前沿的大语言模型、多模态模型,还是专注于语义理解的 Embedding 模型、Reranker 模型等,EvalScope 均能提供全面支持,覆盖从基础能力到复杂场景的评估维度。
栒U3 个月前
人工智能·macos·vllm
一文从零部署vLLM+qwen0.5b(mac本地版,不可以实操GPU单元)第一步:下载anaconda for mac https://zhuanlan.zhihu.com/p/350828057 知乎保姆级教程 https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下载地址
一如年少模样丶3 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。