本地大模型部署工具实战手册②:Ollama实战——RTX 4060上从安装到跑起来

本篇目标:装好 Ollama,跑起第一个模型,知道基本操作,遇到报错能自己解决


Ollama 是什么?

一句话:用一行命令跑起大模型,不需要懂 Docker、不需要配环境变量、不需要折腾 CUDA。

Ollama 的设计哲学是「能多简单就多简单」------你不用关心模型文件存在哪、量化参数怎么配、GPU 怎么调度,它全帮你搞定。

适用场景

  • 本地开发调试
  • 多模型快速切换研究
  • 个人日常使用(本地 AI 助手)
  • API 服务(中小并发)

不适用场景

  • 需要同时服务几十上百个并发请求 → vLLM
  • 完全没有显卡 → LM Studio(不过Ollama 也算可以)

第一步:安装

Windows

官网下载(最简单):

👉 https://ollama.com/download

下载 Windows 安装包,双击运行,装完就自带命令行工具了。

装完之后,打开命令提示符 (Win+R → 输入 cmd → 回车),输入:

复制代码
ollama --version

看到版本号就说明装好了,例如 ollama version 0.5.x

💡 Ollama 默认安装路径 :模型文件存在 C:\Users\你的用户名\.ollama\models,存储不够的话记得提前清理。

最新版(0.22.1)已经支持设置模型存储目录,并且也通过命令指定安装目录:OllamaSetup.exe /DIR="D:\Ollama"

macOS

官网下载 dmg 包,或者用 Homebrew:

bash 复制代码
brew install ollama

Linux

一行命令:

bash 复制代码
curl -fsSL https://ollama.com/install.sh | sh

Linux环境可能会遇到网络问题,更详细的安装使用步骤如果需要可以留言。


第二步:拉取你的第一个模型

Ollama 的模型保存在「模型仓库」里,类似 Docker Hub,但存的是大模型文件。

📋 推荐从 Qwen2.5 开始

为什么?中文支持好,体积适中,生态完善。

拉取 7B 模型(RTX 4060 8GB 可以跑):

复制代码
ollama pull qwen2.5:7b

💡 第一次运行会下载模型文件,大概 4~5GB,取决于你的网速,可以泡杯咖啡等着。

其他常用模型推荐:

模型 大小 适合场景 RTX 4060 能否跑
qwen2.5:0.5b ~400MB 快速测试 ✅ 轻松跑
qwen2.5:1.5b ~1GB 日常对话 ✅ 轻松跑
qwen2.5:7b ~4.5GB 主力推荐 ✅ 可以跑
qwen2.5:14b ~9GB 更高质量 ⚠️ RTX 4060 勉强
llama3.1:8b ~4.7GB 国际对标 ✅ 可以跑
deepseek-r1:7b ~4.7GB 推理能力强 ✅ 可以跑

💡 显存够不够怎么判断? 粗略估算:7B Q4量化约占用 4 ~ 5GB 显存,RTX 4060 8GB 跑起来没问题。14B Q4量化约 8 ~ 9GB,RTX 4060 有压力,建议降到 7B。

注意,加载到GPU内存后占用大小会放大到1.5~3倍 (与设置的上下文长度有关)

如图,RTX 4060 8GB 建议最大用4B模型,如果追求流畅度的话用3B、2B更合适。

查看你已经拉取了哪些模型:

复制代码
ollama list

第三步:直接开聊

装完模型,不用任何配置,直接对话:

复制代码
ollama run qwen2.5:7b

你会看到光标在闪烁,直接输入你的问题:

复制代码
>>> 你好,请你用50字介绍一下量子计算
>>> 
>>> 你好!量子计算是一种利用量子力学原理进行信息处理的技术。它
>>> 通过量子比特(qubit)实现并行计算,在特定问题上相比传统
>>> 计算机具有指数级加速潜力......

输入 /bye 或者按两次 Ctrl+C 退出对话。

💡 第一次运行会稍微慢一点,因为 Ollama 要把模型加载进显存。之后每次 ollama run 都会复用同一个实例,再次运行就快多了。


第四步:API 调用------把你的模型接进代码

这才是 Ollama 真正好用的地方:它自带 OpenAI-compatible API,你的 Python / JavaScript 代码只需要改一行地址,就能从调用 GPT-4 切换到调用本地模型。

启动 API 服务

Ollama 安装后就自动带了一个 API 服务,不需要额外操作。

💡 Ollama 会在后台运行一个 HTTP 服务,地址是 http://localhost:11434,默认端口 11434。

Python 调用示例

python 复制代码
# 安装 openai SDK(Ollama 兼容 OpenAI 的格式)
pip install openai

# Python 代码
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",   # ← Ollama 的 API 地址
    api_key="ollama"                         # ← Ollama 不需要真实 key,随便填
)

response = client.chat.completions.create(
    model="qwen2.5:7b",                      # ← 你想用的模型
    messages=[
        {"role": "user", "content": "用一句话解释什么是Token"}
    ],
    temperature=0.7,
)

print(response.choices[0].message.content)

运行之前,确保 Ollama 正在运行(Windows 任务栏右下角有图标,或者直接运行 ollama serve 启动服务)。

切换模型只需要改一行

想把 GPT-4 换成本地模型?原来调 OpenAI 的代码,只需要把 base_urlmodel 改掉,其他代码一行不用动:

python 复制代码
# OpenAI
client = OpenAI(api_key="sk-xxxx")

# 换成本地 Ollama(只改这两行)
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
model = "qwen2.5:7b"

RTX 4060 8GB 实测:能跑哪些模型?

结合我们的 RTX 4060 8GB 实测参考:

模型 量化精度 显存占用 响应速度 质量 推荐度
Qwen2.5-0.5B Q4 ~500MB 非常快 基础可用 ⭐⭐⭐
Qwen2.5-1.5B Q4 ~1GB 很快 日常对话 OK ⭐⭐⭐⭐
Qwen2.5-7B Q4 ~4.5GB 较快 主力推荐 ⭐⭐⭐⭐⭐
Qwen2.5-14B Q4 ~9GB 一般 RTX 4060 有压力 ⭐⭐
Llama3.1-8B Q4 ~5GB 较快 对话质量好 ⭐⭐⭐⭐

💡 量化是什么? 简单说就是「把模型体积压缩的技术」。Q4_K_M 是目前最流行的平衡方案------压缩了模型大小,但质量损失很小。


常见报错 FAQ

❌ 报错:Error: model 'qwen2.5:7b' not found

原因 :模型还没拉取到本地。
解决

复制代码
ollama pull qwen2.5:7b

❌ 报错:Error: insufficient memory to run model

原因 :显存不够,模型太大了。
解决

  1. 换一个更小的模型:ollama run qwen2.5:1.5b
  2. 清理其他占用显存的应用(关掉游戏、浏览器标签页)
  3. 降低上下文长度(减少 max_tokens

❌ 报错:Error: listen tcp 11434: bind: address already in use

原因 :11434 端口被其他程序占用了(可能是另一个 Ollama 实例)。
解决

复制代码
# 先杀掉现有进程
taskkill /f /im ollama.exe

# 然后重启
ollama serve

❌ 报错:Connection refused(API 调用时)

原因 :Ollama 服务没启动。
解决 :打开命令行运行 ollama serve,或者在 Windows 任务栏找到 Ollama 图标点「Start Server」。


❌ 拉模型很慢 / 一直卡着

原因 :网络问题,Ollama 默认从国外服务器下载。
解决:配置国内镜像(可选,但推荐):

  • 方法一:用代理/VPN
  • 方法二:手动下载 GGUF 文件放到 ~/.ollama/models/ 目录

Ollama 进阶操作

查看正在运行的模型

复制代码
ollama ps

会显示模型名称、加载时间、显存占用。

手动释放显存(停止模型)

复制代码
ollama stop qwen2.5:7b

释放之后显存就空出来了,想再跑再 ollama run

创建自定义模型(高级)

如果社区模型不够用,你可以用 Modelfile 自定义系统提示词、温度等参数。

📋 完整示例:创建一个「中文技术写作助手」

Step 1:创建 Modelfile 文件

在任意目录下创建一个名为 Modelfile 的文件(无后缀),内容如下:

dockerfile 复制代码
# 基于哪个模型
FROM qwen2.5:7b

# 调整推理参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096

# 设置系统提示词(决定模型的「人设」)
SYSTEM """
你是一个专业的中文技术写作助手。
- 用简洁有趣的语言解释复杂概念
- 优先用类比和例子,少用术语
- 每个回答控制在 200 字以内
"""

# 设置停止词(遇到这些词就停止生成)
PARAMETER stop ""

Step 2:构建自定义模型

bash 复制代码
ollama create my-writer -f ./Modelfile

看到 success 就说明构建成功了。

Step 3:运行并测试

bash 复制代码
ollama run my-writer

测试效果:

复制代码
>>> 解释什么是 KV Cache

KV Cache 就像是「记笔记」。大模型推理时会把中间结果
存下来,下次遇到相似的上下文就能直接复用,不用从头算。
就像你做数学题,把中间步骤记在草稿纸上,下次遇到类似
题目直接翻草稿,更快。

Step 4:管理你的自定义模型

bash 复制代码
# 查看所有模型(包括自定义的)
ollama list

# 查看模型详情
ollama show my-writer

# 删除自定义模型
ollama rm my-writer

💡 Modelfile 能做什么?

  • 设置系统提示词(让模型扮演特定角色)
  • 调整 temperature、top_p 等参数
  • 设置停止词、上下文长度
  • 甚至可以基于 GGUF 文件创建本地模型

本篇小结

你做到了 说明
✅ 安装了 Ollama Windows/macOS/Linux 三平台支持
✅ 拉取了第一个模型 ollama pull qwen2.5:7b
✅ 跑起了第一个对话 ollama run qwen2.5:7b
✅ 会用 API 调用 OpenAI-compatible 格式,Python 一行改地址
✅ 能处理常见报错 OOM / 端口占用 / 连接拒绝
✅ 知道 RTX 4060 能跑什么 7B Q4 是主力推荐

RTX 4060 8GB 推荐配置:Qwen2.5-7B Q4量化,日常对话足够流畅。


下一篇文章我们来聊聊另一个选择------如果你完全不想碰命令行,LM Studio 可能是更好的入门方式。

相关推荐
新新技术迷1 天前
Node给AI接口做SSE代理与鉴权
人工智能
redreamSo1 天前
大模型是不是到顶了?瓶颈到底在哪
人工智能·openai
Oo9201 天前
Tool Use 背后的技术逻辑
人工智能
姗姗来迟了1 天前
Vue3封装AI流式对话组件踩坑实录
人工智能
码上天下1 天前
用Pinia管理AI多会话状态
人工智能
用户054324329701 天前
Next.js接大模型流式SSE实操踩坑
人工智能
Assby1 天前
从 Function Calling 到 MCP:理解 Agent 工具调用的底层通信机制
人工智能·后端
小星AI1 天前
Claude Code 从入门到精通,一步到位
人工智能
后端小肥肠1 天前
Codex + Obsidian 做人生副本视频:输入主题文案,直通剪映草稿
人工智能·aigc·agent
百度Geek说1 天前
全链路研发智能体 ——从"体感能用"到"实际可用"的工程实践
人工智能