CUDA & OLLAMA 配置多显卡负载均衡

CUDA & OLLAMA 配置多显卡负载均衡

1. 系统环境概述

  • 显卡型号:2 × NVIDIA GeForce RTX 4060 Ti

  • 驱动版本:560.94

  • CUDA版本:12.6

  • 显存状态

    plaintext 复制代码
    cmd执行 nvidia-smi
    GPU 0: 14,542MiB / 16,380MiB (空闲)
    GPU 1: 13,900MiB / 16,380MiB (空闲)

2. CUDA 环境配置

核心变量

环境变量 值/作用说明 示例值
CUDA_PATH CUDA Toolkit安装路径 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6
CUDA_PATH_V12_6 CUDA 12.6专用路径 同上
CUDA_VISIBLE_DEVICES 指定可见GPU设备(通过nvidia-smi查询ID) 0,1(启用GPU 0和1)

3. OLLAMA 高级配置

GPU 资源管理

环境变量 功能说明 推荐值
OLLAMA_GPU_LAYER 强制使用CUDA分配GPU资源 cuda
OLLAMA_NUM_GPU 启用GPU数量(需与CUDA_VISIBLE_DEVICES匹配) 2
OLLAMA_SCHED_SPREAD GPU负载均衡策略(1=自动均衡) 1
OLLAMA_MAX_LOADED_MODELS 单GPU最大加载模型数(防止显存溢出) 3

服务与并发控制

环境变量 功能说明 推荐值
OLLAMA_HOST 服务监听地址(0.0.0.0=允许所有IP访问) 0.0.0.0
OLLAMA_NUM_PARALLEL 最大并发请求数(根据GPU算力调整) 6
OLLAMA_KEEP_ALIVE 模型驻留时间(-1=永久驻留显存,避免重复加载) -1

存储路径

环境变量 功能说明 示例值
OLLAMA_MODELS 模型文件存储根目录 D:\ollama\models

4. 完整配置示例

(1) linux

bash 复制代码
# CUDA 配置
export CUDA_PATH="C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6"
export CUDA_VISIBLE_DEVICES=0,1

# OLLAMA 核心配置
export OLLAMA_GPU_LAYER=cuda
export OLLAMA_HOST=0.0.0.0
export OLLAMA_KEEP_ALIVE=-1
export OLLAMA_MAX_LOADED_MODELS=3
export OLLAMA_MODELS=D:\ollama\models
export OLLAMA_NUM_GPU=2
export OLLAMA_NUM_PARALLEL=6
export OLLAMA_SCHED_SPREAD=1

(2) windows


5. 关键优化点

  1. 多GPU负载均衡 :通过OLLAMA_SCHED_SPREAD=1实现双卡算力动态分配
  2. 显存驻留优化OLLAMA_KEEP_ALIVE=-1避免高频请求时的模型重复加载
  3. 并发控制OLLAMA_NUM_PARALLEL=6平衡RTX 4060 Ti的算力与响应延迟

6. 配置示例

配置之后模型全部跑在GPU上,不会将CPU拉满

相关推荐
小猿姐6 小时前
唯品会大规模数据库云原生实践:基于 KubeBlocks 管理数千实例的统一运维之路
运维·elasticsearch·云原生
SkyWalking中文站19 小时前
认识 Horizon UI · 5/17:3D 基础设施地图
运维·监控·自动化运维
SkyWalking中文站2 天前
认识 Horizon UI · 1/17:SkyWalking 新一代可观测性控制台
运维·前端·监控
雪梨酱QAQ2 天前
Kubeneters HA Cluster部署
运维
江华森2 天前
Spring Cloud 微服务全栈实战:从 Eureka 到 Docker Compose 一文贯通
运维
江华森2 天前
Matplotlib 数据绘图基础入门
运维
江华森2 天前
NumPy 数值计算基础入门
运维
乘云数字DATABUFF6 天前
5分钟部署开源APM Databuff:OpenTelemetry全链路追踪入门实战
运维·后端
荣--8 天前
一键部署不是为了省时间 —— 它是把"买来的 PaaS"变成"自己的平台"的拐点
运维·zabbix·工程化·一键部署·平台化·边界设计
江华森8 天前
动手实战学 Docker — 从零到集群编排完全指南
运维