技术栈
vllm
bloglin99999
6 小时前
vllm
Qwen3-32B大模型vLLM启动建议
本文基于 vLLM 框架提供 Qwen3-32B 大模型的标准化启动部署说明,核心围绕启动命令中的关键配置项展开,明确各参数的作用、配置建议及硬件要求,确保模型可稳定启动并支持工具调用能力。
洋洋代码
1 天前
vllm
·
langchain4j
·
qwen3
本地vLLM部署大模型使用Langchain4J调用问题(非流式)
java=jdk17 langchain4j=1.8.0 python=3.13.0 vLLM=0.14.1 大模型=Qwen/Qwen3-4B
海棠AI实验室
1 天前
部署
·
vllm
·
runpod
RunPod Serverless + vLLM:大语言模型部署与配置指南(实战版)
目标:用 RunPod Serverless 的 vLLM Worker,把 Hugging Face 上的主流开源模型快速“无服务器化”,并通过环境变量做显存/吞吐/兼容性调优,最终对外提供 RunPod 原生 API 与 OpenAI 兼容 API 两套调用方式。(docs.runpod.io)
AnchorYYC
2 天前
vllm
从日志与源码白盒定位 vLLM 接口的通用方法(以 /v1/score 为例)
在使用 vLLM(尤其是 reranker / score 这类非 OpenAI 标准接口)时,很多人会遇到这些问题:
铁蛋AI编程实战
2 天前
开源
·
ocr
·
vllm
DeepSeek-OCR2:开源 OCR 新王者完整部署教程(vLLM+Transformers 双接口 + 动态分辨率 + 文档批量处理)
入门配置(个人/测试,支持动态分辨率基础功能):CPU≥4核、内存≥16G、GPU(NVIDIA,计算能力≥7.0)显存≥8G,SSD剩余≥20G(存储模型+数据)
HyperAI超神经
3 天前
人工智能
·
深度学习
·
学习
·
算法
·
机器学习
·
ai编程
·
vllm
覆盖天体物理/地球科学/流变学/声学等19种场景,Polymathic AI构建1.3B模型实现精确连续介质仿真
在科学计算和工程模拟领域,如何高效、精确地预测复杂物理系统的演化,一直是学术界和工业界的核心难题。传统数值方法虽然在理论上能够求解大部分物理方程,但在处理高维、多物理场景或非均匀边界条件时,计算成本极高,且缺乏对大规模多任务的适应性。与此同时,深度学习在自然语言处理和计算机视觉领域的突破,引发了研究者们探索「基础模型」在物理模拟中的应用可能性。
GPUStack
4 天前
大模型
·
llm
·
vllm
·
模型推理
·
sglang
·
高性能推理
vLLM、SGLang 融资背后,AI 推理正在走向系统化与治理
最近,推理引擎领域出现了两件具有标志意义的事件:vLLM 和 SGLang 相继走向公司化。vLLM 核心团队成立 Inferact,完成 1.5 亿美元融资,估值达 8 亿美元:
人工智能训练
5 天前
运维
·
前端
·
人工智能
·
python
·
ai编程
·
cuda
·
vllm
【极速部署】Ubuntu24.04+CUDA13.0 玩转 VLLM 0.15.0:预编译 Wheel 包 GPU 版安装全攻略
本次安装锁定以下版本组合(适配 Ubuntu24.04 x86_64 架构 + RTX A6000 显卡):
a4132447
6 天前
linux
·
服务器
·
ubuntu
·
vllm
ubuntu 25 安装vllm
之前在网上查过很多资料,没有一个可以完整安装下来的,包括deepseek给出的方案也不行,自己亲测安装记录一下。
德尔塔大雨淋
6 天前
linux
·
服务器
·
vllm
VLLM 中的module PASS 和FUN PASS
Module Pass 适用场景:Function Pass 适用场景:LLVM 11+ 推荐使用 New Pass Manager(优化管线默认采用),其核心改进是分离Pass与Analysis,支持更灵活的pipeline组合 [[18]]。
缘友一世
8 天前
分布式
·
架构
·
transformer
·
ray
·
vllm
大模型分布式推理:Ray 与 vLLM/Transformers 的协同架构深度解析
官方资源导航:启动阶段的资源编排: 当执行 vllm serve 命令并指定 --distributed-executor-backend ray 时,系统触发以下初始化流程。
taoqick
8 天前
vllm
vLLM中的repetition_penalty、frequency_penalty和presence_penalty
在vLLM中,repetition_penalty、frequency_penalty和presence_penalty是三个专门用于控制文本生成重复性的关键参数。虽然目标相似,但它们的实现逻辑和作用范围各有侧重。
忆~遂愿
9 天前
人工智能
·
vllm
cpolar拯救被困在局域网中的DS File,让NAS文件访问自由到离谱
DS File 作为群晖 NAS 专属的文件管理工具,核心功能围绕文件的全生命周期管理展开,既能对 NAS 内的文件进行分类存储、快速检索,也支持跨设备的文件同步与共享,适配 Android 手机、平板及部分智能家居设备,尤其适合需要高频管理 NAS 文件的职场办公人群、家庭用户,其最大优点在于数据自主掌控,无需依赖第三方网盘,且操作逻辑贴近日常文件整理习惯,上手门槛低。
缘友一世
12 天前
llm
·
vllm
vLLM 生产实践:从极简上手到多 GPU 分布式部署
核心黑科技 vLLM 没有魔法,主要靠工程优化榨干 GPU:从开发者视角看,几个核心组件:用一个简单的流程图概括一下请求从进到出的路径:
就这个丶调调
13 天前
深度学习
·
模型部署
·
vllm
·
参数配置
VLLM部署全部参数详解及其作用说明
VLLM(Very Large Language Model)是近年来在大语言模型部署领域备受关注的技术之一。它通过高效的内存管理和推理优化,显著提升了大规模语言模型的部署效率和性能。本文将详细介绍VLLM部署时涉及的所有参数,并解释每个参数的作用,帮助开发者更好地理解与配置。
njsgcs
13 天前
vllm
vllm Qwen2.5-0.5B输出乱码解决办法 用-Instruct版本的
我重新下过了,也改变量了,bfloat16改float16都没好重新下-Instruct就行了
njsgcs
13 天前
windows
·
wsl
·
vllm
ModelScope下载模型+ vLLM调用+内存释放
vllm Qwen2.5-0.5B输出乱码解决办法 用-Instruct版本的-CSDN博客
xiliuhu
15 天前
macos
·
vllm
MacOS下vllm运行Qwen3:8b模型
1 下载huggingface-cli命令输出:huggingface_hub version: 0.36.0
颢珂智库Haokir Insights
15 天前
服务器
·
人工智能
·
ai编程
·
vllm
·
vibecoding
如何把 MCP 接入到文档 / Issue / CI,形成可复用的工程外脑
Model Context Protocol(MCP) 的价值是:把这些“外部系统”以统一协议暴露为可调用的工具与可读取的资源,让 IDE/终端里的 AI Agent 不再靠猜,而是可检索、可追踪、可执行、可审计。MCP 被定义为连接 LLM 应用与外部数据源/工具的开放协议。
Hcoco_me
16 天前
人工智能
·
深度学习
·
算法
·
机器学习
·
vllm
大模型面试题91:合并访存是什么?原理是什么?
核心结论:合并访存是GPU全局内存访问的“黄金优化法则”——让同一个线程束(32个线程)访问连续、对齐的内存地址,使GPU的内存控制器把32个分散的访存请求“合并”成1次批量请求,就像32个工人按顺序排队搬砖,卡车1趟就能拉完,而非乱抢砖导致卡车跑32趟,大幅提升访存效率。