vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio

在云端运行 vLLM 服务后,可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地,该方案可作为个人 AI 基础设施的底层架构。

一、整体架构

整体架构如下:

bash 复制代码
┌─────────────────────┐
│ 本地 Cherry Studio  │
└─────────┬───────────┘
          │
          │ OpenAI API
          ▼
┌─────────────────────┐
│ localhost:8000      │
│ SSH Tunnel          │
└─────────┬───────────┘
          │ SSH Port Forward
          ▼
┌─────────────────────┐
│ 云端 GPU 服务器      │
│ vLLM API Server     │
│ RTX 4090D / xxx     │
└─────────────────────┘

远程服务器负责:

  • 模型推理,KV Cache 管理,OpenAI-Compatible API

本地仅负责:

  • UI,Prompt 输入,API 调用

这种架构的优点:

  • 本地资源占用极低,模型统一管理,服务可复用,易于扩展 Agent / RAG / MCP

缺点吗?就是云端运行需要money,选4090D 24G这样的配置,一天的话也得 1.88 * 12 约等于 20;

但在某些场景下,这种云端运行是必要的

二、云端环境准备

使用 AutoDL 平台,创建实例时选择 vllm-0.20.0 镜像,下载模型

细节可查看镜像README

uv 环境管理

uv 提供了一个隔离环境,使用 uv 安装包

bash 复制代码
uv pip install xxx

三、启动 vLLM 服务

启动命令

bash 复制代码
vllm serve /autodl-tmp/your_model_dir \
  --host 127.0.0.1 \
  --port 8000

验证 API 服务

1、健康检查

bash 复制代码
curl http://127.0.0.1:8000/health

2、查看模型

bash 复制代码
curl http://127.0.0.1:8000/v1/models

返回类似如下:

bash 复制代码
{
  "data": [
    {
      "id": "/root/Qwen3-0.6B/"
    }
  ]
}

这里的 id 就是后续客户端必须使用的 model name。

四、SSH Tunnel:将远程 API 映射到本地

命令行方式

本地执行:

bash 复制代码
ssh -L 8000:127.0.0.1:8000 user@server

含义:

bash 复制代码
本地 localhost:8000
    ↓
远程 127.0.0.1:8000

此时,本地实际上已经拥有:

bash 复制代码
http://127.0.0.1:8000/v1

这个 OpenAI-Compatible API。

GUI方式

使用 Autodl-SSH tools 工具,填写后点击开始代理即可

autossh 保持长连接

可自行学习这个工具

普通 SSH 可能断开,推荐:

bash 复制代码
autossh -M 0 -N \
  -L 8000:127.0.0.1:8000 \
  user@server

特点:自动重连、后台保活、长期稳定运行

五、Cherry Studio 接入

Cherry Studio 是目前体验较好的本地 AI 工作台之一。

支持:OpenAI API、Claude、Gemini、本地模型、MCP

并且:对 OpenAI-Compatible API 支持良好。


Cherry Studio 配置

有问题,欢迎大家留言、进群讨论或私聊:【群号:392784757】

Cherry Studio 配置

Provider:选择 OpenAI,不要选择,Claude / Anthropic,因为,vLLM 实现的是OpenAI API 而不是Anthropic Messages API

Base URL:填写:http://127.0.0.1:8000/v1

API Key (vLLM 默认不校验):sk-ccuu

点击获取模型列表,然后添加启用

获取模型列表

开始对话

对话

六、总结

至此:

  • 模型运行在远程 GPU

  • 本地零显存占用

  • Cherry Studio 可直接对话

  • OpenAI SDK 可直接调用

  • 全链路无需公网开放

这套方案已经足以构建一个稳定的个人 AI 基础设施。

可进一步扩展方向(探索ing)

  1. 多模型路由

例如:Qwen、DeepSeek、Llama、Mistral

统一通过 vLLM 暴露。

  1. RAG

接入:Open WebUI 、AnythingLLM、Dify

  1. MCP / Agent

Cherry Studio 已支持 MCP。

后续可以:文件系统、浏览器、Shell、知识库 全部接入。

相关推荐
黄啊码1 小时前
8个AI,同一道高考作文题,同一个结果:我的那篇最好
人工智能
m0_737246981 小时前
QDKT产品拆解&设计
人工智能
xinlianyq1 小时前
TikTok短视频生成工具哪家好?跨境出海如何用 AI 实现爆款视频复刻
人工智能·aigc
源码宝1 小时前
基于SpringCloud+UniApp的智慧工地云平台整体架构设计与实现
java·人工智能·spring cloud·源码·智慧工地·云平台
Aousdu1 小时前
AI_Coding_用python做一个智能编程助手(1)
人工智能
大写-凌祁1 小时前
RS-Claw & XSkill 深度分析
人工智能·语言模型·云计算·腾讯云·agi
大模型任我行1 小时前
蚂蚁:无师自通的视觉记忆增强
人工智能·计算机视觉·语言模型·论文笔记
暗夜猎手-大魔王1 小时前
转载--Hermes Agent 13 | Gateway 架构:二十余渠道如何复用同一套 Agent Runtime
人工智能·gateway
小杨在厦门2 小时前
从“凭感觉管”到“靠数据管”:AI验布数据如何重塑纺织企业决策模式
人工智能·服装·服装厂·服装机械·铺布机