本地部署 Ollama 大模型:零成本开启 AI 开发之旅

本地部署 Ollama 大模型:零成本开启 AI 开发之旅

发布日期:2026 年 4 月 11 日

标签:OllamaAILLM本地部署大模型


简介

你是否也想拥有一个完全属于自己的 AI 助手?无需担心隐私泄露,无需支付订阅费用,本地部署 Ollama 让你轻松使用开源大模型。本文将带你从零开始搭建 Ollama 环境,并介绍如何使用它进行本地开发。

什么是 Ollama?

Ollama 是一个开源的本地 LLM 运行框架,支持各种主流大模型,如 Qwen3.5Llama3Mistral 等。它基于 Docker 和 Rust 构建,提供简单的命令行接口和 Web UI。


环境准备

1. 安装 Docker

bash 复制代码
# 检查 Docker 是否已安装
docker --version

# 未安装时,MacOS 用户可以从 Docker Desktop 官网下载:
# https://www.docker.com/products/docker-desktop

2. 安装 Ollama

bash 复制代码
# macOS
brew install ollama

# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请访问官网下载安装包:
# https://ollama.com/download

3. 启动服务

bash 复制代码
# 启动 Ollama
ollama serve

# 后台运行(可选)
ollama serve &

# 查看已安装模型
ollama list

# 拉取模型(默认是 CPU 优化版本)
ollama pull qwen3.5
ollama pull llama3.2:3b
ollama pull mistral

使用 Ollama

1. 命令行交互

bash 复制代码
# 开始对话
ollama run qwen3.5

# 退出对话
Ctrl+D 或输入 /exit

# 指定版本
ollama run qwen3.5:7b

2. 设置环境变量

bash 复制代码
# 设置上下文长度(默认 4096)
OLLAMA_NUM_GPU_LAYERS=0 ollama serve

# 设置最大并发请求数
OLLAMA_MAX_CONCURRENT_REQUESTS=4 ollama serve

本地开发

1. Python API 使用

python 复制代码
import requests
from langchain_ollama import ChatOllama

# 创建聊天实例
llm = ChatOllama(model="qwen3.5", base_url="http://localhost:11434")

# 进行对话
response = llm.invoke("你好,请介绍一下 Ollama")
print(response)

2. JavaScript/TypeScript 使用

javascript 复制代码
// 使用 OpenAI 格式的 Node 客户端
const response = await fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen3.5",
    prompt: "你好,请介绍一下 Ollama",
    stream: false
  })
});

const result = await response.json();
console.log(result.response);

3. VS Code 扩展

安装 Ollama 插件,即可在编辑器中直接使用本地模型进行代码辅助、文档生成等。


配置建议

1. 模型选择

模型名称 适用场景 内存需求
qwen3.5:7b 通用对话、代码 ~7GB
qwen3.5:14b 复杂任务、多模态 ~14GB
llama3.2:3b 轻量设备、快速响应 ~3GB
mistral 欧洲用户推荐 ~4GB

2. 性能优化

  • 使用 --num-gpu-layers 参数指定 GPU 层数
  • 设置 OLLAMA_MAX_LOADED_MODELS 控制并发模型数量
  • 使用 OLLAMA_NUM_PARALLEL 设置并发请求数

常见问题

1. 模型加载失败

bash 复制代码
# 清理缓存
ollama rm <model-name>
ollama pull <model-name>

# 重启服务
ollama serve

2. 内存不足

bash 复制代码
# 使用更小的模型
ollama pull llama3.2:3b
ollama run llama3.2:3b

3. 网络问题

bash 复制代码
# 设置代理
OLLAMA_ORIGINS="http://localhost" ollama serve

总结

Ollama 是一个简单、高效的本地 LLM 运行框架,无需复杂配置即可快速投入使用。支持多种主流模型,提供丰富的 API 接口,适合开发者和个人用户。

建议:定期更新 Ollama 和模型版本,以获得最佳性能。


作者 :AI 技术爱好者
许可协议 :MIT License
联系方式[your-email@example.com](https://link.juejin.cn?target=mailto%3Ayour-email%40example.com "mailto:your-email@example.com")


推荐阅读


本文档基于实际部署经验整理,持续更新中。

相关推荐
monsion18 小时前
Loop Engineering:你不再 prompt agent,而是设计 prompt agent 的系统
大数据·人工智能·prompt
卡梅德生物科技小能手18 小时前
卡梅德生物科普MCAM(黑色素瘤细胞黏附分子)
人工智能·经验分享·深度学习
老兵发新帖18 小时前
next drawio界面卡死问题分析
人工智能·draw.io
一楼的猫18 小时前
茄子写作助手——品牌搜索突破9万后的技术型品牌认知与官网入口指南
人工智能·学习·机器学习·chatgpt·ai写作
ZeroNews内网穿透18 小时前
NAS部署Hermes AI Agent + 零讯内网穿透,实现远程可管理的AI助手
人工智能·安全·ai·内网穿透
隔窗听雨眠18 小时前
原生一体化多模态大模型技术研究:从拼接到统一的架构革命
人工智能·架构
羊羊小栈18 小时前
Uplift营销供应链协同决策系统(基于Uplift因果推断与运筹优化算法)
前端·人工智能·算法·毕业设计·大作业
苏州邦恩精密18 小时前
江苏三维扫描仪厂家如何选择合适的工业测量方案?
人工智能·科技·机器学习·3d·自动化·制造
humors22118 小时前
100种社会实践
人工智能·程序人生
保卫大狮兄18 小时前
什么是WBS项目管理?WBS有哪些核心功能?
大数据·人工智能