【AI】通过修改用户环境变量优化Ollama模型加载与访问

前言

最近通过Ollama在本地部署deepseek的帖子甚多，这里不再重复。但使用中，总会发现有不顺手的地方，这就需要通过Ollama参数优化的方法来实现。为方便大家，这里做个简单分享。

Ollama是一个开源框架，主要用于在本地机器上运行和管理大型语言模型（LLM），可通过官网下载。

进入Ollama 官网，选择models就可进行模型下载
https://registry.ollama.ai/search

搜索到模型后，复制相关命令行，在cmd窗口运行即可。

OLLAMA_DEBUG: 显示额外的调试信息（例如：LLAMA_DEBUG=1）。

OLLAMA_HOST: Ollama 服务器的 IP 地址（默认值：127.0.0.1:11434）。

OLLAMA_KEEP_ALIVE: 模型在内存中保持加载的时长（默认值："5m"）。

OLLAMA_MAX_LOADED_MODELS: 每个 GPU 上最大加载模型数量。

OLLAMA_MAX_QUEUE: 请求队列的最大长度。

OLLAMA_MODELS: 模型目录的路径。

OLLAMA_NUM_PARALLEL: 最大并行请求数。

OLLAMA_NOPRUNE: 启动时不修剪模型 blob。

OLLAMA_ORIGINS: 允许的源列表，使用逗号分隔。

OLLAMA_SCHED_SPREAD: 始终跨所有 GPU 调度模型。

OLLAMA_TMPDIR: 临时文件的位置。

OLLAMA_FLASH_ATTENTION: 启用 Flash Attention。

OLLAMA_LLM_LIBRARY: 设置 LLM 库以绕过自动检测。

单次加载大模型，可通过临时修改参数，重启ollama serve 来实现。比如，增加并发请求参数OLLAMA_NUM_PARALLEL，启动命令如下：

bash 复制代码

set OLLAMA_NUM_PARALLEL=2
ollama serve

但每次修改太麻烦，有没有一劳永逸的方法，有，请继续往下看。

我们在使用Ollama过程中会遇到问题，比如模型镜像默认在C 盘，C盘空间不足需要切换到其他盘符，需要外网访问ollama等。这些问题都是可以借助ollama 属性设置来解决，在windows系统中，增加相应的用户环境变量并参考以下设置相应的变量值即可。

OLLAMA_HOST=0.0.0.0

OLLAMA_MODELS=D:\ollama_models

(默认情况下，模型在卸载之前会在内存中保留 5 分钟)

OLLAMA_KEEP_ALIVE=24h

OLLAMA_HOST=0.0.0.0:8080

OLLAMA_NUM_PARALLEL=2

OLLAMA_MAX_LOADED_MODELS=2

由于Ollama是直接在cmd命令行里运行，所以各种参数需要添加用户环境变量来实现，这个多少有点麻烦。希望以后可以在命令行里直接添加参数，或者使用json等文件修改配置。