使用Ollama运行本地模型,模型参数选择(保姆级图文讲解)

使用Ollama运行本地模型,模型参数选择(保姆级图文讲解)

Ollama简介

Ollama官网:Ollama

Ollama 是一个开源工具 ,让你能在本地电脑上轻松运行大型语言模型(如 Llama 3、DeepSeek、Qwen 等)。它简化了 AI 模型的部署和使用过程,无需依赖云端服务。

核心特点

  1. 简单易用 - 通过几条命令就能下载和运行模型
  2. 本地运行 - 数据留在本地,隐私安全
  3. 多模型支持 - 支持 Llama、DeepSeek、Mistral、Qwen 等主流模型
  4. 跨平台 - 支持 macOS、Linux 和 Windows
  5. API 服务 - 内置兼容 OpenAI 格式的 API 接口

一、下载安装

下载地址:Download Ollama on Windows

点击下载即可,注意不要用CMD控制台下载,因为卡了文件基本上就要重新下载了

自定义安装路径:使用CMD命令安装

1、打开CMD控制台
2、安装
bash 复制代码
OllamaSetup.exe /DIR=D:\environment\Ollama
3、回车后安装即可
4、设置模型安装路径

注意这个安装路径只跟Ollama官网安装的模型有关系

二、模型参数选择(参考)

先说一下我的配置供大家参考(因为后面我有测试样例):AMD显卡 7800xt(16G显存),32G内存,7800X3D(8 核心 / 16 线程)

选择哪个模型参数规模(也就是那个数字后面带的B),主要看你的显卡有多少显存。简单来说,显存是你的预算,模型参数和量化精度是你想买的东西,一定要量入为出。

ps:量化是一种压缩技术,能在牺牲一点点精度的情况下,大幅减少模型对显存的占用,让它能在更多设备上跑起来

模型参数规模 显存需求 (FP16精度) 显存需求 (Q5_K_M量化) 适合做什么?
1B - 3B 2 GB - 6 GB 约 1 GB - 3 GB 基础的文本生成、摘要、在手机或老旧笔记本上跑跑
7B - 8B 约 14 GB - 16 GB 约 5 GB - 7 GB 日常的编程辅助、文档问答、头脑风暴(目前性价比最高的选择)
13B - 14B 约 26 GB - 28 GB 约 8 GB - 10 GB 更复杂的推理任务、专业领域的知识问答、高质量的内容创作
32B - 34B 约 66 GB 约 20 GB - 22 GB 作为本地强大的"副驾驶",处理非常复杂的任务,能力接近顶尖模型
70B+ 140 GB+ 约 35 GB+ 需要多张专业显卡(如多路A100或H100)才能运行,适合企业和深度研究

需要注意的是,AMD显卡在跑AI时没有NVIDIA那么省心,需要依赖ROCm支持,但确实是个高显存、低成本的好选择。

你的显存"预算" 可流畅运行的模型规模 NVIDIA 推荐型号 AMD 推荐型号
6 GB - 8 GB 7B-8B模型 (需量化) RTX 3050/3060 (6GB/8GB) RX 6600/7600 (需确认ROCm兼容性)
12 GB - 16 GB 7B-8B (高精度),或 13B-14B (量化) RTX 3060 (12GB) , RTX 4070/4060 Ti (16GB) RX 6700/6800 XT (16GB版本)
24 GB 13B-14B (高精度),或 32B (量化) RTX 3090/4090 RX 7900 XTX
32 GB - 48 GB 32B-34B (高精度) NVIDIA A6000 (48GB) , RTX 6000 Ada 需双卡或专业AMD计算卡 (如MI100系列)
48 GB+ 70B+ 模型 NVIDIA A100 (80GB) , 多卡方案 多卡方案,或大显存计算卡

三、Ollama 命令(配合后面案例)(qwen:3.5举例)

字体加粗的是比较重要的

命令 说明 示例
ollama run 运行模型。如果不存在则自动拉取。(这个比下面好用)(下文案例会用到) ollama run qwen:3.5
ollama pull 拉取模型。从库中下载模型但不运行。 ollama pull qwen:3.5
ollama list 列出模型。显示本地所有已下载的模型。(下文案例会用到) ollama list
ollama rm 删除模型。移除本地模型释放空间。(下文案例会用到) ollama rm qwen:3.5
ollama cp 复制模型。将现有模型复制为新名称(用于测试)。 ollama cp qwen:3.5 my-model
ollama create 创建模型。根据 Modelfile 创建自定义模型(高级)。(下文案例会用到) ollama create qwen:3.5 -f ./Modelfile
ollama show 显示信息。查看模型的元数据、参数或 Modelfile。 ollama show --modelfile qwen:3.5
ollama ps 查看进程。显示当前正在运行的模型及显存占用。(下文案例会用到) ollama ps
ollama push 推送模型。将你自定义的模型上传到 ollama.com ollama push my-username/qwen:3.5
ollama serve 启动服务。启动 Ollama 的 API 服务(通常后台自动运行)。 ollama serve
ollama help 帮助。查看任何命令的帮助信息。 ollama help run
ollama launch 用本地模型启动,我后面的文章(不是这篇文章)会讲到用本地模型跑Openclaw并且集成飞书,所以这个命令也比较重要 Claude Codeollama launch claude --model qwen3.5 Codexollama launch codex --model qwen3.5 OpenCodeollama launch opencode --model qwen3.5 OpenClawollama launch openclaw --model qwen3.5

四、选择我们需要的下载的模型(两种方式)

1、Ollama官网下载

(1、选择模型

我们来到官网:Ollama,搜索我们需要的模型进行下载

(2、选择Qwen3.5举例

需要运行的话只需要在cmd控制台(之前的打开方式,或者按 win+R 键输入 CMD 回车也行)输入

bash 复制代码
ollama run qwen3.5

会默认安装官方的latest版本,量化版本点击 View all 查看

如果我们需要下载自己的版本只需要复制这个Name即可,如下:

bash 复制代码
ollama run qwen3.5:0.8b
(3、脚本下载

因为下载有点慢(每次下载一段时间就会限速)所以我放个bat脚本(就是一个文件的后缀为.bat的文件,文件名随意,保存下段命令后,双击执行即可)给大家使用

当然大家也可以按 ctrl+c(退出当前下载)然后重新输入下载命令即可

逻辑:下载2分钟,中断3秒继续执行,直到下载成功为止

模型、超时时间、重试时间都可以自己调整

bat 复制代码
@echo off
setlocal enabledelayedexpansion

set MODEL=qwen3.5:4b
set INTERRUPT_SECONDS=120
set RETRY_DELAY_SECONDS=3

echo ========================================
echo Ollama Model Download Script
echo ========================================
echo Model: %MODEL%
echo Interrupt Interval: %INTERRUPT_SECONDS% seconds
echo Retry Delay: %RETRY_DELAY_SECONDS% seconds
echo ========================================
echo.

:download_loop
echo [%date% %time%] Checking if model is already downloaded...

ollama list | findstr /C:"%MODEL%" >nul 2>&1
if %errorlevel% equ 0 (
    echo.
    echo ========================================
    echo [%date% %time%] Download completed!
    echo ========================================
    goto :end
)

echo [%date% %time%] Starting download...

rem Start ollama pull in a new cmd window and get its PID
for /f %%i in ('powershell -ExecutionPolicy Bypass -Command "$p = Start-Process cmd -ArgumentList '/k','ollama run %MODEL%' -PassThru; $p.Id"') do set DOWNLOAD_PID=%%i

echo PID: !DOWNLOAD_PID!
rem Wait for specified seconds then close the download window
timeout /t %INTERRUPT_SECONDS% /nobreak >nul
taskkill /PID !DOWNLOAD_PID! /F /T >nul 2>&1
timeout /t 1 /nobreak >nul

echo [%date% %time%] Download interrupted, waiting %RETRY_DELAY_SECONDS% seconds before retry...
timeout /t %RETRY_DELAY_SECONDS% /nobreak >nul
echo.

goto :download_loop

:end
echo.
echo Download finished successfully!
pause
endlocal
(4、测试

还是通过cmd窗口运行命令

ollama ps 查看进程。显示当前正在运行的模型及显存占用。

ollama list 列出模型。显示本地所有已下载的模型。

ollama run qwen3.5:4b --think=false 运行模型。--think=false 的意思是不开启深度思考(qwen3.5模型是具备思考功能的)

bash 复制代码
C:\Users\Admin>ollama ps # 这里因为没有启动所以没有显示
NAME    ID    SIZE    PROCESSOR    CONTEXT    UNTIL

C:\Users\Admin>ollama list
NAME          ID              SIZE      MODIFIED
qwen3.5:4b    2a654d98e6fb    3.4 GB    20 minutes ago

C:\Users\Admin>ollama run qwen3.5:4b --think=false
>>> 你好
你好!有什么我可以帮你的吗?😊

>>> Send a message (/? for help) # 退出的指令是 /bye 然后回车

ollama app.exe 运行(就是在Ollama的安装目录下,之前改模型安装路径也打开过)

(5、退出:关闭Ollama就行了

2、第三方下载(魔塔(modelscope)、huggingface)

魔塔:模型库

huggingface:Models -- Hugging Face

因为 huggingface 需要魔法,所以我用魔塔举例,并且选用量化的模型(也是使用Qwen3.5举例)

(1、我们先重点讲一下量化和GGUF文件

GGUF

是 LLaMA.cpp 团队为支持多种大模型(包括 LLaMA、ChatGLM、Med-Go 等)而设计的一种统一二进制格式,专门用于存储量化后的模型权重。它允许模型在 CPU/GPU 上快速推理,尤其适合本地部署。

量化

原始大模型(如 Med-Go 32B)使用 FP16/FP32 浮点数存储参数,占用内存极大(例如 32B 模型需约 64GB 显存)。

量化就是将高精度浮点数转换为低精度整数(如 4-bit、5-bit),从而:

  • 大幅减少模型体积(从几十 GB 压缩到几 GB)
  • 提升推理速度
  • 降低对硬件要求(可在普通 PC 上运行)

但代价是:轻微牺牲精度与性能

(2、量化命名规则和含义:
格式 含义 特点
Q2_K 2-bit 量化,K 表示使用 "K-quantization" 方案 最小体积,速度最快,但精度最低
Q3_K_L 3-bit 量化,L = "Low precision" 平衡大小与性能
Q3_K_M 3-bit 量化,M = "Medium" 比 Q3_K_L 更好一些
Q3_K_S 3-bit 量化,S = "Small" 轻量版,适合资源受限设备
Q4_K_M 4-bit 量化,M = "Medium" 推荐首选!平衡速度、精度、内存
Q4_K_S 4-bit 量化,S = "Small" 体积更小,略逊于 M
Q5_K_M 5-bit 量化,M = "Medium" 高精度,适合专业用途
Q5_K_S 5-bit 量化,S = "Small" 精度稍低,速度快
Q6_K 6-bit 量化 几乎接近 FP16 精度,体积较大
Q8_0 8-bit 量化,无压缩 接近原生精度,几乎无损失
(3、我们去魔塔选择自己配置匹配的模型进行下载(GGUF文件)

实际尝试,4-bit的版本根本就是乱答,哈哈哈,可以换个模型来玩

(4、量化模型选择(Qwen3.5举例)

我们既然使用了unsloth量化的模型,就去unsloth 官网看看该怎么选择吧

Unsloth 是一个专门用于加速大型语言模型(LLM)微调 的开源库,同时显著降低显存占用。它的核心目标是让大模型的微调变得更快、更省显存、更易于上手,同时保持甚至提升模型的精度。

根据下面这张表来选择吧

(5、下载完成后测试

打开cmd窗口

执行 ollama create 命令,运行前记得把 ollama app.exe 打开

ollama create qwen3.5:666 -f ./ModelFile :把模型加载到ollama

ollama create创建模型。根据 Modelfile 创建自定义模型

qwen3.5:666:自定义模型的名字

-f ./ModelFile-f--file 的简写 ./ModelFile 指的就是当前文件夹下面的 gguf文件

ollama list列出模型。显示本地所有已下载的模型。

ollama run qwen3.5:666:运行模型,说实话我选这个4-bit的模型有点拉胯,这里只是作为创建、运行、删除参考

ollama rm qwen3.5:666删除模型。移除本地模型释放空间。

bash 复制代码
D:\environment\QwenModels>ollama create qwen3.5:666 -f ./ModelFile
gathering model components
copying file sha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8 100%
parsing GGUF
using existing layer sha256:03b74727a860a56338e042c4420bb3f04b2fec5734175f4cb9fa853daf52b7e8
writing manifest
success

D:\environment\QwenModels>ollama list
NAME           ID              SIZE      MODIFIED
qwen3.5:666    7874b6f05a01    5.7 GB    10 seconds ago
qwen3.5:4b     2a654d98e6fb    3.4 GB    44 minutes ago

D:\environment\QwenModels>ollama run qwen3.5:666 # 运行我们创建的模型,由于模型在乱答,所以回答我就不贴出来了

D:\environment\QwenModels>ollama rm qwen3.5:666 # 这里是删除操作
deleted 'qwen3.5:666'

D:\environment\QwenModels>ollama list # 这里可以看见已经被删除了
NAME          ID              SIZE      MODIFIED
qwen3.5:4b    2a654d98e6fb    3.4 GB    About an hour ago
(6、退出:关闭Ollama就行了

结语

至此Ollama安装本地LLM已经完成了

后续我还会更新Openclaw+Ollama+本地大预言模型调用Openclaw链接飞书机器人,点赞越多更新越快

后续反向好的话,我会更新 Claude Code(Claude Sonnet 4.6)、Chat GPT 5.4、CodeX 等使用的文章

相关推荐
冴羽2 小时前
OpenClaw 接入飞书配置指南
人工智能·aigc
向上的车轮2 小时前
SAP AI系统融合:嵌入式智能、Joule助手与BTP扩展的实践路径
人工智能
Fleshy数模2 小时前
OpenCV图像处理实战:旋转、多模板匹配与金字塔
图像处理·人工智能·opencv
九硕智慧建筑一体化厂家2 小时前
楼宇的能耗与碳排放问题,如何达到降本和减碳?
人工智能
焦耳热科技前沿2 小时前
厦门大学Nat. Commun.:闪蒸焦耳热诱导富镍层状氧化物正极表面尖晶石化以稳定晶格氧
人工智能·科技·自动化·能源·材料工程
阿_旭2 小时前
基于YOLO26深度学习的铁轨部件缺陷检测与语音提示系统【python源码+Pyqt5界面+数据集+训练代码】
人工智能·python·深度学习·铁轨部件缺陷检测
胖祥2 小时前
AI之Transform encoder/decoder抽象理解
人工智能
早睡早起好好code2 小时前
Qwen2.5-VL研究_待完善...
图像处理·人工智能·笔记·深度学习·学习
zhqh1002 小时前
Ubuntu24.04安装ollama,基于GPU,对接openclaw
人工智能·ubuntu·ollama·openclaw