vllm

缘友一世2 天前
llm·vllm
vLLM 生产实践:从极简上手到多 GPU 分布式部署核心黑科技 vLLM 没有魔法,主要靠工程优化榨干 GPU:从开发者视角看,几个核心组件:用一个简单的流程图概括一下请求从进到出的路径:
就这个丶调调2 天前
深度学习·模型部署·vllm·参数配置
VLLM部署全部参数详解及其作用说明VLLM(Very Large Language Model)是近年来在大语言模型部署领域备受关注的技术之一。它通过高效的内存管理和推理优化,显著提升了大规模语言模型的部署效率和性能。本文将详细介绍VLLM部署时涉及的所有参数,并解释每个参数的作用,帮助开发者更好地理解与配置。
njsgcs3 天前
vllm
vllm Qwen2.5-0.5B输出乱码解决办法 用-Instruct版本的我重新下过了,也改变量了,bfloat16改float16都没好重新下-Instruct就行了
njsgcs3 天前
windows·wsl·vllm
ModelScope下载模型+ vLLM调用+内存释放vllm Qwen2.5-0.5B输出乱码解决办法 用-Instruct版本的-CSDN博客
xiliuhu4 天前
macos·vllm
MacOS下vllm运行Qwen3:8b模型1 下载huggingface-cli命令输出:huggingface_hub version: 0.36.0
颢珂智库Haokir Insights5 天前
服务器·人工智能·ai编程·vllm·vibecoding
如何把 MCP 接入到文档 / Issue / CI,形成可复用的工程外脑Model Context Protocol(MCP) 的价值是:把这些“外部系统”以统一协议暴露为可调用的工具与可读取的资源,让 IDE/终端里的 AI Agent 不再靠猜,而是可检索、可追踪、可执行、可审计。MCP 被定义为连接 LLM 应用与外部数据源/工具的开放协议。
Hcoco_me5 天前
人工智能·深度学习·算法·机器学习·vllm
大模型面试题91:合并访存是什么?原理是什么?核心结论:合并访存是GPU全局内存访问的“黄金优化法则”——让同一个线程束(32个线程)访问连续、对齐的内存地址,使GPU的内存控制器把32个分散的访存请求“合并”成1次批量请求,就像32个工人按顺序排队搬砖,卡车1趟就能拉完,而非乱抢砖导致卡车跑32趟,大幅提升访存效率。
Hcoco_me6 天前
人工智能·算法·机器学习·langchain·vllm
大模型面试题90:half2,float4这种优化 与 pack优化的底层原理是什么?核心结论:half2(2个半精度浮点数打包)、float4(4个单精度浮点数打包)和pack优化的底层核心是**“数据打包 + SIMD向量指令并行”** ——把多个小数据“捆成一捆”变成一个“大数据单元”,让GPU的计算核心(CUDA Core)一次处理多个数据,同时减少内存访问次数,就像工人一次搬4块砖而非1块,既提升运算效率,又充分利用硬件资源。
执笔论英雄6 天前
wpf·vllm
【大模型推理】VLLM 引擎使用EngineCore_DP0 和 RayWorkerWrapper 是主从关系:EngineCore 在独立进程中启动,通过 EngineCoreClient.make_async_mp_client() 创建 3 。
熊明才7 天前
ocr·vllm
DeepSeek-OCR VLLM 环境配置指南本文记录了在离线服务器上搭建 DeepSeek-OCR 推理环境的完整过程,包括依赖安装、版本兼容问题排查及解决方案。
HyperAI超神经8 天前
人工智能·深度学习·学习·机器学习·ai编程·vllm
【vLLM 学习】Rlhf UtilsvLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。
柠檬丶抒情8 天前
python·深度学习·rust·vllm
Rust深度学习框架Burn 0.20是否能超过python?提到深度学习,大家脑子里跳出的第一个词肯定是大红大紫的 PyTorch 或者 TensorFlow。虽然 Python 在科研圈呼风唤雨,但到了真正追求极致性能、追求“一次编译,到处运行”的生产环境,Python 的解释器开销和复杂的依赖管理往往让人抓狂。
陈 洪 伟10 天前
vllm·pageattention
大模型推理引擎 vLLM(2):PagedAttention论文学习以及原理解析借鉴操作系统中虚拟内存的分页技术,将KV缓存划分为多个block块,每个块保存固定数量token的KV数据,并通过block table将逻辑block和物理block进行映射。连续的逻辑页可以对应到非连续的物理内存页,并且物理的内存空间并不需要提前去预留,而是按需分配,
Hcoco_me11 天前
人工智能·深度学习·算法·机器学习·vllm
大模型面试题75:讲解一下GRPO的数据回放在GRPO(群体相对策略优化)训练LLM的过程中,数据回放就像学生的错题本+好题本——把之前训练中“表现好的样本”存起来,后续训练时再拿出来反复用,核心目的是防止模型“学了新的,忘了旧的”,同时还能节省计算资源。咱们还是从小白能懂的基础入手,一步步拆明白。
Hcoco_me11 天前
人工智能·深度学习·算法·transformer·vllm
大模型面试题76:强化学习中on-policy和off-policy的区别是什么?要搞懂这两个概念,咱们先记住一个核心区别:on-policy = 边用边学,学的策略和用的策略是同一个; off-policy = 学用分离,学的策略和用的策略不是同一个。
恭仔さん12 天前
架构·vllm·tgi
大模型推理架构 TGI vs vLLMTGI 是 Hugging Face 推出的高性能文本生成推理框架,专为大规模语言模型设计。其主要特点包括:
技术狂人16812 天前
人工智能·算法·面试·职场和发展·vllm
工业大模型工程化部署实战!4 卡 L40S 高可用集群(动态资源调度 + 监控告警 + 国产化适配)前面我们搞定了模型微调、RAG 融合、多模态输入,所有模块在本地测试都能正常运行 —— 但对工业场景来说,“能跑通” 和 “能落地” 之间还差最后一道坎:工程化部署。车间环境和实验室完全不同:早高峰 15 名工程师同时查询,P0 紧急故障(核心线断网)不能被 P2 低优先级(日志分析)抢占资源;服务器要 7×24 小时运行,任何 downtime 都可能导致停线;还要支持国产化适配,数据不能出内网。
Hcoco_me13 天前
人工智能·深度学习·算法·自然语言处理·transformer·vllm
大模型面试题71: DPO有什么缺点?后续对DPO算法有哪些改进?咱们之前聊过DPO的核心优势——绕开奖励模型、训练简单稳定,但它并不是完美的算法。就像一把好用的小刀,适合切菜却砍不了木头,DPO也有自己的「短板」;而后续的改进,本质就是给这把小刀「加配件」,让它能应对更多场景。
Hcoco_me14 天前
人工智能·深度学习·自然语言处理·transformer·vllm
大模型面试题61:Flash Attention中online softmax(在线softmax)的实现方式在讲online softmax之前,先明确一个核心问题:传统Attention的softmax到底卡在哪里?