本地部署 Ollama 大模型:零成本开启 AI 开发之旅

本地部署 Ollama 大模型:零成本开启 AI 开发之旅

发布日期:2026 年 4 月 11 日

标签:OllamaAILLM本地部署大模型


简介

你是否也想拥有一个完全属于自己的 AI 助手?无需担心隐私泄露,无需支付订阅费用,本地部署 Ollama 让你轻松使用开源大模型。本文将带你从零开始搭建 Ollama 环境,并介绍如何使用它进行本地开发。

什么是 Ollama?

Ollama 是一个开源的本地 LLM 运行框架,支持各种主流大模型,如 Qwen3.5Llama3Mistral 等。它基于 Docker 和 Rust 构建,提供简单的命令行接口和 Web UI。


环境准备

1. 安装 Docker

bash 复制代码
# 检查 Docker 是否已安装
docker --version

# 未安装时,MacOS 用户可以从 Docker Desktop 官网下载:
# https://www.docker.com/products/docker-desktop

2. 安装 Ollama

bash 复制代码
# macOS
brew install ollama

# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请访问官网下载安装包:
# https://ollama.com/download

3. 启动服务

bash 复制代码
# 启动 Ollama
ollama serve

# 后台运行(可选)
ollama serve &

# 查看已安装模型
ollama list

# 拉取模型(默认是 CPU 优化版本)
ollama pull qwen3.5
ollama pull llama3.2:3b
ollama pull mistral

使用 Ollama

1. 命令行交互

bash 复制代码
# 开始对话
ollama run qwen3.5

# 退出对话
Ctrl+D 或输入 /exit

# 指定版本
ollama run qwen3.5:7b

2. 设置环境变量

bash 复制代码
# 设置上下文长度(默认 4096)
OLLAMA_NUM_GPU_LAYERS=0 ollama serve

# 设置最大并发请求数
OLLAMA_MAX_CONCURRENT_REQUESTS=4 ollama serve

本地开发

1. Python API 使用

python 复制代码
import requests
from langchain_ollama import ChatOllama

# 创建聊天实例
llm = ChatOllama(model="qwen3.5", base_url="http://localhost:11434")

# 进行对话
response = llm.invoke("你好,请介绍一下 Ollama")
print(response)

2. JavaScript/TypeScript 使用

javascript 复制代码
// 使用 OpenAI 格式的 Node 客户端
const response = await fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen3.5",
    prompt: "你好,请介绍一下 Ollama",
    stream: false
  })
});

const result = await response.json();
console.log(result.response);

3. VS Code 扩展

安装 Ollama 插件,即可在编辑器中直接使用本地模型进行代码辅助、文档生成等。


配置建议

1. 模型选择

模型名称 适用场景 内存需求
qwen3.5:7b 通用对话、代码 ~7GB
qwen3.5:14b 复杂任务、多模态 ~14GB
llama3.2:3b 轻量设备、快速响应 ~3GB
mistral 欧洲用户推荐 ~4GB

2. 性能优化

  • 使用 --num-gpu-layers 参数指定 GPU 层数
  • 设置 OLLAMA_MAX_LOADED_MODELS 控制并发模型数量
  • 使用 OLLAMA_NUM_PARALLEL 设置并发请求数

常见问题

1. 模型加载失败

bash 复制代码
# 清理缓存
ollama rm <model-name>
ollama pull <model-name>

# 重启服务
ollama serve

2. 内存不足

bash 复制代码
# 使用更小的模型
ollama pull llama3.2:3b
ollama run llama3.2:3b

3. 网络问题

bash 复制代码
# 设置代理
OLLAMA_ORIGINS="http://localhost" ollama serve

总结

Ollama 是一个简单、高效的本地 LLM 运行框架,无需复杂配置即可快速投入使用。支持多种主流模型,提供丰富的 API 接口,适合开发者和个人用户。

建议:定期更新 Ollama 和模型版本,以获得最佳性能。


作者 :AI 技术爱好者
许可协议 :MIT License
联系方式 :[your-email@example.com]


推荐阅读


本文档基于实际部署经验整理,持续更新中。

相关推荐
木心术12 小时前
设备管理网管系统:详细下一步行动指南
前端·人工智能·opencv
小白狮ww2 小时前
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 蒸馏模型,27B 参数也能做强推理
人工智能·自然语言处理·claude·通义千问·opus·推理·qwen3.5
w_t_y_y2 小时前
python类库(一)模板
人工智能
Nova_AI2 小时前
014、AI开源生态:模型、工具与社区的盈利之道
人工智能·开源
weixin_513449962 小时前
walk_these_ways项目学习记录第八篇(通过行为多样性 (MoB) 实现地形泛化)--策略网络
开发语言·人工智能·python·学习
管二狗赶快去工作!2 小时前
体系结构论文(九十八):NPUEval: Optimizing NPU Kernels with LLMs and Open Source Compilers
人工智能·深度学习·自然语言处理·体系结构
zhangshuang-peta2 小时前
通过 MCP 控制平面引入技能
人工智能·机器学习·ai agent·mcp·peta
LX567772 小时前
传统编辑如何考取AI内容编辑师认证?学习路径详解
人工智能·学习
LaughingZhu2 小时前
Product Hunt 每日热榜 | 2026-04-10
人工智能·经验分享·深度学习·神经网络·产品运营