CUDA & OLLAMA 配置多显卡负载均衡

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述

  • 显卡型号:2 × NVIDIA GeForce RTX 4060 Ti

  • 驱动版本:560.94

  • CUDA版本:12.6

  • 显存状态

    plaintext 复制代码
    cmd执行 nvidia-smi
    GPU 0: 14,542MiB / 16,380MiB (空闲)
    GPU 1: 13,900MiB / 16,380MiB (空闲)

2. CUDA 环境配置

核心变量

环境变量 值/作用说明 示例值
CUDA_PATH CUDA Toolkit安装路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6 CUDA 12.6专用路径 同上
CUDA_VISIBLE_DEVICES 指定可见GPU设备(通过nvidia-smi查询ID) 0,1(启用GPU 0和1)

3. OLLAMA 高级配置

GPU 资源管理

环境变量 功能说明 推荐值
OLLAMA_GPU_LAYER 强制使用CUDA分配GPU资源 cuda
OLLAMA_NUM_GPU 启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配) 2
OLLAMA_SCHED_SPREAD GPU负载均衡策略(1=自动均衡) 1
OLLAMA_MAX_LOADED_MODELS 单GPU最大加载模型数(防止显存溢出) 3

服务与并发控制

环境变量 功能说明 推荐值
OLLAMA_HOST 服务监听地址(0.0.0.0=允许所有IP访问) 0.0.0.0
OLLAMA_NUM_PARALLEL 最大并发请求数(根据GPU算力调整) 6
OLLAMA_KEEP_ALIVE 模型驻留时间(-1=永久驻留显存,避免重复加载) -1

存储路径

环境变量 功能说明 示例值
OLLAMA_MODELS 模型文件存储根目录 D:\ollama\models

4. 完整配置示例

(1) linux

bash 复制代码
# CUDA 配置
export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
export CUDA_VISIBLE_DEVICES=0,1

# OLLAMA 核心配置
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_MODELS=D:\ollama\models
export OLLAMA_NUM_GPU=2
export OLLAMA_NUM_PARALLEL=6
export OLLAMA_SCHED_SPREAD=1

(2) windows


5. 关键优化点

  1. 多GPU负载均衡 :通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
  2. 显存驻留优化OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
  3. 并发控制OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与响应延迟

6. 配置示例

配置之后模型全部跑在GPU上,不会将CPU拉满

相关推荐
飞Link1 分钟前
【Linux】Linux(CentOS7)配置SSH免密登录
linux·运维·服务器
飞Link4 分钟前
【Java】Linux(CentOS7)下安装JDK8(Java)教程
java·linux·运维·服务器
tap.AI5 分钟前
Deepseek(二)五分钟打造优质 PPT:从 DeepSeek 大纲到 Kimi 自动化生成
运维·自动化·powerpoint
oMcLin22 分钟前
Linux系统的香港服务器性能调优指南:从 CPU、内存到 I/O
linux·运维·服务器
彬匠科技BinJiang_tech28 分钟前
对账太耗时?跨境ERP实现物流商/供应商自动化对账
大数据·运维·自动化
坚持的小马36 分钟前
启动NameServer集群
linux·运维·网络
一只大侠的侠44 分钟前
Linux实战:动态进度条从零实现,多版本优化与缓冲区原理全解析
linux·运维·服务器
gaize12131 小时前
什么是服务器数据?为什么那么重要?
运维·服务器
catoop1 小时前
CentOS 7 重置root密码步骤
linux·运维·centos
刘火锅1 小时前
Nginx HTTP基本认证配置技术文档
运维·nginx·http