vLLM实践之个人AI基建——云端vLLM+SSH Tunnel+本地Cherry Studio

在云端运行 vLLM 服务后,可通过 SSH Tunnel 将远程 OpenAI-Compatible API 映射到本地,该方案可作为个人 AI 基础设施的底层架构。

一、整体架构

整体架构如下:

bash 复制代码
┌─────────────────────┐
│ 本地 Cherry Studio  │
└─────────┬───────────┘
          │
          │ OpenAI API
          ▼
┌─────────────────────┐
│ localhost:8000      │
│ SSH Tunnel          │
└─────────┬───────────┘
          │ SSH Port Forward
          ▼
┌─────────────────────┐
│ 云端 GPU 服务器      │
│ vLLM API Server     │
│ RTX 4090D / xxx     │
└─────────────────────┘

远程服务器负责:

  • 模型推理,KV Cache 管理,OpenAI-Compatible API

本地仅负责:

  • UI,Prompt 输入,API 调用

这种架构的优点:

  • 本地资源占用极低,模型统一管理,服务可复用,易于扩展 Agent / RAG / MCP

缺点吗?就是云端运行需要money,选4090D 24G这样的配置,一天的话也得 1.88 * 12 约等于 20;

但在某些场景下,这种云端运行是必要的

二、云端环境准备

使用 AutoDL 平台,创建实例时选择 vllm-0.20.0 镜像,下载模型

细节可查看镜像README

uv 环境管理

uv 提供了一个隔离环境,使用 uv 安装包

bash 复制代码
uv pip install xxx

三、启动 vLLM 服务

启动命令

bash 复制代码
vllm serve /autodl-tmp/your_model_dir \
  --host 127.0.0.1 \
  --port 8000

验证 API 服务

1、健康检查

bash 复制代码
curl http://127.0.0.1:8000/health

2、查看模型

bash 复制代码
curl http://127.0.0.1:8000/v1/models

返回类似如下:

bash 复制代码
{
  "data": [
    {
      "id": "/root/Qwen3-0.6B/"
    }
  ]
}

这里的 id 就是后续客户端必须使用的 model name。

四、SSH Tunnel:将远程 API 映射到本地

命令行方式

本地执行:

bash 复制代码
ssh -L 8000:127.0.0.1:8000 user@server

含义:

bash 复制代码
本地 localhost:8000
    ↓
远程 127.0.0.1:8000

此时,本地实际上已经拥有:

bash 复制代码
http://127.0.0.1:8000/v1

这个 OpenAI-Compatible API。

GUI方式

使用 Autodl-SSH tools 工具,填写后点击开始代理即可

autossh 保持长连接

可自行学习这个工具

普通 SSH 可能断开,推荐:

bash 复制代码
autossh -M 0 -N \
  -L 8000:127.0.0.1:8000 \
  user@server

特点:自动重连、后台保活、长期稳定运行

五、Cherry Studio 接入

Cherry Studio 是目前体验较好的本地 AI 工作台之一。

支持:OpenAI API、Claude、Gemini、本地模型、MCP

并且:对 OpenAI-Compatible API 支持良好。


Cherry Studio 配置

有问题,欢迎大家留言、进群讨论或私聊:【群号:392784757】

Cherry Studio 配置

Provider:选择 OpenAI,不要选择,Claude / Anthropic,因为,vLLM 实现的是OpenAI API 而不是Anthropic Messages API

Base URL:填写:http://127.0.0.1:8000/v1

API Key (vLLM 默认不校验):sk-ccuu

点击获取模型列表,然后添加启用

获取模型列表

开始对话

对话

六、总结

至此:

  • 模型运行在远程 GPU

  • 本地零显存占用

  • Cherry Studio 可直接对话

  • OpenAI SDK 可直接调用

  • 全链路无需公网开放

这套方案已经足以构建一个稳定的个人 AI 基础设施。

可进一步扩展方向(探索ing)

  1. 多模型路由

例如:Qwen、DeepSeek、Llama、Mistral

统一通过 vLLM 暴露。

  1. RAG

接入:Open WebUI 、AnythingLLM、Dify

  1. MCP / Agent

Cherry Studio 已支持 MCP。

后续可以:文件系统、浏览器、Shell、知识库 全部接入。

相关推荐
kfaino22 分钟前
码农的AI翻身(四)你好,我叫 Attention
人工智能·后端
雨落Re2 小时前
如何设计一个高质量Skill
人工智能
Token炼金师3 小时前
大模型权重文件全指南:从格式选择到优化实战
人工智能
阿牛哥_GX3 小时前
CDP 浏览器操控原理:让脚本接管你的浏览器
人工智能
ThreeS3 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
米小虾4 小时前
Loop Engineering —— 循环的设计与自主执行
人工智能·agent
米小虾4 小时前
Harness Engineering —— 系统的安全护栏
人工智能·agent
火山引擎开发者社区4 小时前
积分当钱花,火山引擎开发者激励计划首月消费双倍回馈
人工智能
aqi005 小时前
15天学会AI应用开发(十)把文本嵌入模型换成国产模型
人工智能·python·ai编程