将GPT OSS私有部署推理性能提升100倍的部署教程(下)

部署 GPT OSS 模型

确认模型下载完成后,点击已下载模型右侧的部署按钮,部署模型。

在部署页面,展开高级配置,设置模型类别为 LLM。并在后端版本中,填写自定义后端版本为 0.10.1+gptossGPUStack 会自动调用 /var/lib/gpustack/bin/vllm_0.10.1+gptoss 来运行模型:

并设置以下后端参数和环境变量:

后端参数:

--max-model-len=32768

环境变量:

VLLM_ATTENTION_BACKEND=FLASH_ATTN

VLLM_USE_FLASHINFER_SAMPLER=0

保存部署,等待模型启动完成,确认模型正常运行(Running):

然后可以在试验场测试模型:

GPT OSS 20B

GPT OSS 120B

EvalScope 压测对比 Ollama

EvalScope 是魔搭社区推出的模型评测与性能基准测试框架 ,简单易上手,此处使用 EvalScope 来对比 Ollama 和 GPUStack vLLM 后端运行的 GPT OSS 20B 与 GPT OSS 120B 的吞吐性能表现

使用 Conda 安装 EvalScope:

创建虚拟环境

conda create -n evalscope python=3.10 -y

激活虚拟环境

conda activate evalscope

安装 EvalScope

pip install -U 'evalscope[perf]' plotly gradio wandb

以下为压测记录,可以直接跳过到最后查看压测结果汇总分析。

GPT OSS 20B 单卡运行

10 请求 1并发

GPUStack vLLM

evalscope perf \

--url "https://gpustack.xxx.xx/v1/chat/completions" \

--api-key "gpustack_c07786062fb72316_ce5da3294ec87a708b25bda4082d894b" \

--model gpt-oss-20b \

--number 10 \

--parallel 1 \

--api openai \

--dataset openqa \

--stream

Ollama

evalscope perf \

--url "http://192.168.0.1:11434/v1/chat/completions" \

--model gpt-oss:20b \

--number 10 \

--parallel 1 \

--api openai \

--dataset openqa \

--stream

将以上压测结果的吞吐表现汇总如下表:

以上测试结果表明,在大模型推理的场景下,硬件投入越高,选择像 vLLM 这样的高效推理引擎,其投资回报率ROI也就越高。举个形象的例子:如果企业采购了价值 1000 万元的 GPU 硬件,假设使用 vLLM 可以将 GPU 使用效率提升到约 80%,相当于真正发挥出 800 万元的硬件价值。而若选择如 Ollama 这类桌面型工具,相同资源条件下,实际吞吐能力仅为 vLLM 的几分之一,能够释放的计算能力远低于 vLLM。对于重视成本效益与性能表现的企业来说,如何选型,自然不言而喻。

以上测试数据基于单实例运行环境。尽管 Ollama 单实例的资源占用看似远低于 vLLM,但由于其技术架构的限制,单实例一般也仅能支持个位数的并发连接。要想支撑更高的并发,必须通过部署多个实例来扩展能力。然而,多实例部署带来的最大问题就是显存资源的严重浪费。以部署 GPT OSS 20B 模型为例,单个 Ollama 实例加载约 14GB 的模型权重,假设每个实例支持 4 路并发,实现 100 路并发需部署 25 个实例,显存总占用超过 350GB。而采用 vLLM,仅需约 130GB 显存即可支撑相同并发,且具备更强的扩展能力。

综上,从资源利用率、扩展能力到总体成本控制,vLLM 在实际生产环境中均展现出显著优势,是面向企业级大模型推理部署的更优解。

相关推荐
147API13 小时前
2026 国内 GPT API 中转站测评:147AI、PoloAPI、星链4SAPI 怎么选
gpt·api中转·api大模型
DigitalOcean1 天前
DeepSeek 推理接近 4 倍提速,这家 AI 推理云是怎么做到的?
gpt·claude·deepseek
Resistance丶未来1 天前
GPT-5.5 深度评测:性能边界与实战价值全解析
gpt·大模型·api·claude·gemini·api key·gpt5.5
AI周红伟1 天前
周红伟:GPT-Image-2深度解析:从技术原理到实战教程,为什么它能让整个AI圈炸锅?
人工智能·gpt·深度学习·机器学习·语言模型·openclaw
GEO索引未来1 天前
国内首部GEO可信传播标准立项通过/DeepSeek-V4 正式上线并开源/Open AI、Google继续推进AI广告标准化
大数据·人工智能·gpt·ai·chatgpt·开源
开心的AI频道1 天前
如何看待 OpenAI 近期小范围内测的 GPT-image-2 生图模型?
人工智能·gpt
皆过客,揽星河1 天前
如何在 Edge 浏览器中使用 Deepsider 插件调用 GPT-Image-2.0
gpt·ai·ai作画·硬件工程·ai提示词·gpt-image-2.0·最新gpt版本体验
码字小学妹2 天前
GPT-5.5 API 接入教程:1M 上下文 + Agent 能力登顶 Terminal-Bench
gpt
chaofan9802 天前
突破大模型落地瓶颈:Claude 4.7 与 GPT-5.5 长上下文工程实测
数据库·人工智能·python·gpt·自动化·php·api
ai大模型中转api测评2 天前
构建生产级 AI 应用:GPT-5.5 与 Claude 4.7 的 Token 成本管理与工程化实战
大数据·人工智能·gpt·自动化