多个gradio服务实现负载均衡

背景

刚开始在一块GPU卡上部署了一个大模型服务,零星几个人在浏览器上访问倒也不需要考虑并发请求负载过高的问题,用gradio的queue排队机制也能应付过去。但最近体验的人多了,体验感就跟不上了。于是,增加了一块GPU,单个服务用两块GPU,测试后发现仅仅是显存分在两块卡上了,速度并未提升。那怎么办呢,就两块卡部署两个服务吧,各用一块GPU,起码缩短下排队时间吧。那么接下来要解决的问题就是,如何在用户访问一个地址的时候将请求分发到其中一个服务上?

解决思路

首先,部署两个gradio服务,分别用其中一块GPU;

接着,创建一个nginx服务,监听请求,并将请求分发到其中一个gradio服务地址上;要将被分发到的服务地址写入到相应头中;

最后,用户访问入口,在已有的一个前端页面上建个图标,点击图标触发nginx服务地址请求,用fetch API获取到响应头中被分发到的服务的地址,跳转过去即可。

解决步骤

要实现直接跳转到被分发到的服务的 IP 地址,你可以修改 Nginx 配置,使其将被分发到的服务的 IP 地址包含在 HTTP 响应头中。然后,在客户端收到响应后,可以从响应头中提取被分发到的服务的 IP 地址,并将用户重定向到该地址。

下面是修改后的 Nginx 配置文件:

复制代码
upstream gradio_servers {
    server 10.67.56.66:8890;
    server 10.67.56.66:8891;
}

server {
    listen 8889;

    location / {
        proxy_pass http://gradio_servers;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header Host $http_host;
        add_header X-Target-Server $upstream_addr;  # 添加一个包含被分发到的服务的 IP 地址的响应头
        add_header 'Access-Control-Expose-Headers' 'X-Target-Server';
    }
}

注意:add_header 'Access-Control-Expose-Headers' 'X-Target-Server'; 这句一定要加上,否则浏览器可能会阻止获取响应头部信息。

前端改动:在用户点击 el-avatar 时发送请求到 Nginx,并根据响应头中的被分发到的服务的 IP 地址执行重定向,代码如下:

javascript 复制代码
<template>
  <el-avatar shape="circle" :size="120" :src="aigcUrl" @click="redirectToTarget"></el-avatar>
</template>

<script>
export default {
  data() {
    return {
      nginxUrl: 'http://your-nginx-address:8889', // 设置 Nginx 的地址
    };
  },
  methods: {
    redirectToTarget() {
      fetch(this.nginxUrl)
        .then(response => {
          // 提取响应头中的被分发到的服务的 IP 地址
          const targetServer = response.headers.get('X-Target-Server');
          if (targetServer) {
            // 执行重定向到被分发到的服务的 IP 地址
            window.location.href = 'http://' + targetServer;
          } else {
            // 如果没有提取到被分发到的服务的 IP 地址,则输出错误信息
            console.error('未找到目标服务器地址');
          }
        })
        .catch(error => {
          console.error('请求错误:', error);
        });
    },
  },
};
</script>

到此问题解决,测试ok!

相关推荐
我叫张小白。几秒前
Docker核心命令
运维·docker·容器
羽翼安全7 分钟前
多摄像头接入检测 + 文件加密:监控室防拍照系统的两道设备与数据防线
运维·网络·人工智能
疋瓞7 分钟前
批处理_自定义带锁文件夹应用案例_03
运维·服务器
一只积极向上的小咸鱼8 分钟前
Codex MCP 与 Skills 跨 Docker 共享问题总结与后续规范
运维·docker·容器
运维行者_8 分钟前
如何为您的企业选择最佳网络监控工具
大数据·运维·服务器·网络·数据库
Benszen14 分钟前
云计算基础-4:Linux 进程管理
linux·运维·云计算
逸模8 小时前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
sbjdhjd8 小时前
Redis 主从复制、哨兵高可用与 Cluster 集群部署实验手册
运维·前端·redis·云原生·开源·bootstrap·html
AOwhisky9 小时前
MySQL 学习笔记(第四期):SQL 语言之多表查询
linux·运维·网络·数据库·笔记·学习·mysql
Phantom Void9 小时前
服务器处理客户端请求的设计方法
linux·运维·网络