vllm

Qwen2.5、Llama 3.1轻量模型本地化部署指南：从环境配置到企业级实战目录摘要1 技术原理与架构设计1.1 轻量模型本地化部署的核心价值1.2 本地化部署架构设计理念1.3 核心算法与性能特性

GPUStack v2：推理加速释放算力潜能，开源重塑大模型推理下半场关注🌟⌈GPUStack⌋ 💻 一起学习 AI、GPU 管理与大模型相关技术实践。2025 年是大模型推理技术发展的关键之年。自年初 DeepSeek R1 发布引发全民关注以来，推理框架加速需求暴涨，推理优化的战场骤然升温。以 vLLM、SGLang、MindIE 为代表的高性能推理引擎，以及 FlashInfer、FlashAttention、ATB 等底层加速库不断突破性能瓶颈，相比年初，部分前沿框架的推理性能提升已达 3 到 4 倍以上。

借助豆包将vllm推理deepseek-ocr改成web服务访问本次的试验环境:查看远程服务器上cuda版本号已经安装了deepseek-ocr, vllm本次的需求是，希望将通过vllm推理deepseek-ocr的方式，改成web方式。提高效率。免的每次请求，都得重新加载deepseek-ocr模型。

基于Qwen2.5-7B-Chat的本地化部署实战——从模型原理到企业级应用目录摘要1. 技术原理与架构设计1.1 Qwen2.5模型架构解析1.2 系统架构设计1.3 核心算法实现

DeepSeek-OCR私有化部署—从零构建OCR服务环境光学字符识别（OCR）技术经历了从传统图像处理到深度学习的重要演进。早期OCR系统依赖于手工设计的特征提取器和规则引擎，在规整文档上表现良好，但在复杂场景下面临巨大挑战。随着深度学习技术的发展，特别是CNN和Transformer架构的兴起，OCR技术实现了质的飞跃。DeepSeek-OCR正是在这一技术背景下应运而生，代表了当前OCR领域的最先进水平。与传统OCR系统相比，DeepSeek-OCR摒弃了复杂的规则引擎，采用端到端的深度学习架构，在大规模多语言文本数据上训练，实现了更高的识别准确率和更强的

主流 LLM 推理/部署框架指标对比主流 LLM 推理/部署框架关键指标上做了对比：吞吐量（Tokens/s）、首 token 响应时间（TTFT，s）、单 token 生成时间（TPOT，ms）、并发能力、推理时 TOKEN 生成效率。注意：这些指标强烈依赖于：模型大小（13B/70B/Chat-style/decoder-only）、硬件（H100/GH200/Blackwell/H20/CPU）、量化与 KV-cache 支持、并发请求分发策略等

老显卡老cpu用vllm推理大模型失败Intel(R) Xeon(R) CPU E5-2643 v2先上结论，显卡太老，无法装cuda12.6cpu太老，不支持AVX2, ，所以实践失败。它会把torch一起安装

DeepSeek-OCR 论文精读与实践：用“光学上下文压缩”把长文本变成图片，再由 VLM 高效还原关键词：DeepSeek-OCR、视觉-文本压缩、长上下文、MoE、OCR、文档解析、vLLM、Transformers

weixin_43807749

windows10安装WSL2 & ubuntu24.04中安装vLLM & vLLM中部署Qwen2.5-VL本文记录下，如何使用vLLM部署模型。安装教程参考视频教程：https://www.bilibili.com/video/BV1BijSzfEmQ/。由于vLLM只支持Linux操作系统，所以首先安装WSL2。

LLMOps-第十一周作业大模型分布式训练;此次环境搭建是在AutoDL官方网站上搭建的实例,使用的基础镜像为PyTorch/2.8.0/3.12(ubuntu22.04)/12.8

vLLM 性能优化实战：批处理、量化与缓存配置方案很多团队把它vLLM 当 demo 跑，但是其实这没把它系统能力发挥出来。这篇文章将介绍怎么让 vLLM 真正干活——持续输出高令牌/秒，哪些参数真正有用，以及怎么在延迟和成本之间做取舍。

九章云极AladdinEdu

大模型推理服务优化：vLLM的PagedAttention与连续批处理实现大型语言模型（LLM）推理面临两大核心矛盾：计算密度高（单次推理需数十亿次浮点运算）与内存消耗大。以LLaMA-13B为例，仅KV缓存（Key-Value Cache）存储单个序列就可能占用1.7GB内存，而传统推理系统（如HuggingFace Transformers、FasterTransformer）由于固定内存预分配策略，导致60%-80%的内存因碎片化和过度保留而被浪费。

华为昇腾NPU驱动问题排查与vLLM部署踩坑记录本文记录了华为NPU服务器驱动失效问题的完整排查与解决过程。服务器重启后npu-smi info命令失效，经诊断发现是内核自动升级导致当前运行的5.15.0-153版本缺少Ascend驱动模块。通过对比/lib/modules目录下各内核版本的驱动文件，确认5.15.0-144-generic版本包含完整的24个驱动模块。随后修改GRUB配置回退至该内核版本，并通过锁定内核包和禁用自动升级机制防止问题再次发生。在尝试部署vLLM框架时，遇到了NumPy版本冲突、缺少依赖模块、C++编译环境配置、CANN

MonkeyKing_sunyuhua

怎么计算vllm启动大模型的并发数🧠 一、影响 vLLM 并发请求数的关键因素⸻🔍 二、实时查看当前并发请求数 / 队列情况vLLM 本身有监控接口与日志输出，可以直接观察：

vLLM - GPUModelRunnerGPUModelRunner是真正执行模型前向传播的组件，主要的功能：load_model完成模型的加载：

如何高效微调大模型？LLama-Factory一站式解决方案全解析文较长，建议点赞收藏，以免遗失。更多AI大模型开发学习视频/籽料/面试题都在这>>Github<< >>Gitee<<

使用 EvalScope 对 vLLM 私有化部署 Qwen3-30B-A3B 模型性能压测EvalScope 是 ModelScope倾力打造的官方模型评估与性能基准测试框架，专为满足多样化的模型评测需求而设计，为开发者提供一站式解决方案。无论是前沿的大语言模型、多模态模型，还是专注于语义理解的 Embedding 模型、Reranker 模型等，EvalScope 均能提供全面支持，覆盖从基础能力到复杂场景的评估维度。

一文从零部署vLLM+qwen0.5b（mac本地版，不可以实操GPU单元）第一步：下载anaconda for mac https://zhuanlan.zhihu.com/p/350828057 知乎保姆级教程 https://www.anaconda.com/docs/getting-started/anaconda/install#macos-linux-installation 下载地址

一如年少模样丶

GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。