【AI】通过修改用户环境变量优化Ollama模型加载与访问

文章目录

  • 前言
  • 一、Ollama是什么?
  • 二、使用步骤
    • [1. Ollama模型下载](#1. Ollama模型下载)
    • [2. Ollama可配置环境变量](#2. Ollama可配置环境变量)
    • [3. 常见Ollama属性设置](#3. 常见Ollama属性设置)
      • [3.1 实现外网访问:](#3.1 实现外网访问:)
      • [3.2 模型默认下载切换到D盘](#3.2 模型默认下载切换到D盘)
      • [3.3 模型加载到内存中保持24个小时](#3.3 模型加载到内存中保持24个小时)
      • [3.4 修改默认端口11434端口为8080](#3.4 修改默认端口11434端口为8080)
      • [3.5 设置2个用户并发请求](#3.5 设置2个用户并发请求)
      • [3.6 设置同时加载多个模型](#3.6 设置同时加载多个模型)
  • 总结

前言

最近通过Ollama在本地部署deepseek的帖子甚多,这里不再重复。但使用中,总会发现有不顺手的地方,这就需要通过Ollama参数优化的方法来实现。为方便大家,这里做个简单分享。


一、Ollama是什么?

Ollama是一个开源框架,主要用于在本地机器上运行和管理大型语言模型(LLM),可通过官网下载。

Download Ollama on Windows https://registry.ollama.ai/download/windows

二、使用步骤

1. Ollama模型下载

进入Ollama 官网,选择models就可进行模型下载
https://registry.ollama.ai/search

搜索到模型后,复制相关命令行,在cmd窗口运行即可。

2. Ollama可配置环境变量

OLLAMA_DEBUG: 显示额外的调试信息(例如:LLAMA_DEBUG=1)。

OLLAMA_HOST: Ollama 服务器的 IP 地址(默认值:127.0.0.1:11434)。

OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长(默认值:"5m")。

OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。

OLLAMA_MAX_QUEUE: 请求队列的最大长度。

OLLAMA_MODELS: 模型目录的路径。

OLLAMA_NUM_PARALLEL: 最大并行请求数。

OLLAMA_NOPRUNE: 启动时不修剪模型 blob。

OLLAMA_ORIGINS: 允许的源列表,使用逗号分隔。

OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。

OLLAMA_TMPDIR: 临时文件的位置。

OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。

OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

单次加载大模型,可通过临时修改参数,重启ollama serve 来实现。比如,增加并发请求参数OLLAMA_NUM_PARALLEL,启动命令如下:

bash 复制代码
set OLLAMA_NUM_PARALLEL=2
ollama serve

但每次修改太麻烦,有没有一劳永逸的方法,有,请继续往下看。

3. 常见Ollama属性设置

我们在使用Ollama过程中会遇到问题,比如模型镜像默认在C 盘,C盘空间不足需要切换到其他盘符,需要外网访问ollama等。这些问题都是可以借助ollama 属性设置来解决,在windows系统中,增加相应的用户环境变量并参考以下设置相应的变量值即可。

3.1 实现外网访问:

OLLAMA_HOST=0.0.0.0

3.2 模型默认下载切换到D盘

OLLAMA_MODELS=D:\ollama_models

3.3 模型加载到内存中保持24个小时

(默认情况下,模型在卸载之前会在内存中保留 5 分钟)

OLLAMA_KEEP_ALIVE=24h

3.4 修改默认端口11434端口为8080

OLLAMA_HOST=0.0.0.0:8080

3.5 设置2个用户并发请求

OLLAMA_NUM_PARALLEL=2

3.6 设置同时加载多个模型

OLLAMA_MAX_LOADED_MODELS=2


总结

由于Ollama是直接在cmd命令行里运行,所以各种参数需要添加用户环境变量来实现,这个多少有点麻烦。希望以后可以在命令行里直接添加参数,或者使用json等文件修改配置。

相关推荐
七月稻草人2 分钟前
CANN ops-nn:AIGC底层神经网络算力的核心优化引擎
人工智能·神经网络·aigc·cann
种时光的人2 分钟前
CANN仓库核心解读:ops-nn打造AIGC模型的神经网络算子核心支撑
人工智能·神经网络·aigc
晚霞的不甘4 分钟前
守护智能边界:CANN 的 AI 安全机制深度解析
人工智能·安全·语言模型·自然语言处理·前端框架
谢璞6 分钟前
中国AI最疯狂的一周:50亿金元肉搏,争夺未来的突围之战
人工智能
池央6 分钟前
CANN 算子生态的深度演进:稀疏计算支持与 PyPTO 范式的抽象层级
运维·人工智能·信号处理
方见华Richard7 分钟前
世毫九实验室(Shardy Lab)研究成果清单(2025版)
人工智能·经验分享·交互·原型模式·空间计算
Maynor9967 分钟前
OpenClaw 玩家必备:用 AI 自动追踪社区最新动态
java·服务器·人工智能
aini_lovee8 分钟前
MATLAB基于小波技术的图像融合实现
开发语言·人工智能·matlab
ujainu17 分钟前
CANN仓库中的AIGC多模态统一抽象工程:昇腾AI软件栈如何用一套接口驾驭图文音视
人工智能·aigc
AC赳赳老秦22 分钟前
代码生成超越 GPT-4:DeepSeek-V4 编程任务实战与 2026 开发者效率提升指南
数据库·数据仓库·人工智能·科技·rabbitmq·memcache·deepseek