本地部署 Ollama 大模型:零成本开启 AI 开发之旅

本地部署 Ollama 大模型:零成本开启 AI 开发之旅

发布日期:2026 年 4 月 11 日

标签:OllamaAILLM本地部署大模型


简介

你是否也想拥有一个完全属于自己的 AI 助手?无需担心隐私泄露,无需支付订阅费用,本地部署 Ollama 让你轻松使用开源大模型。本文将带你从零开始搭建 Ollama 环境,并介绍如何使用它进行本地开发。

什么是 Ollama?

Ollama 是一个开源的本地 LLM 运行框架,支持各种主流大模型,如 Qwen3.5Llama3Mistral 等。它基于 Docker 和 Rust 构建,提供简单的命令行接口和 Web UI。


环境准备

1. 安装 Docker

bash 复制代码
# 检查 Docker 是否已安装
docker --version

# 未安装时,MacOS 用户可以从 Docker Desktop 官网下载:
# https://www.docker.com/products/docker-desktop

2. 安装 Ollama

bash 复制代码
# macOS
brew install ollama

# Linux (Ubuntu/Debian)
curl -fsSL https://ollama.com/install.sh | sh

# Windows 用户请访问官网下载安装包:
# https://ollama.com/download

3. 启动服务

bash 复制代码
# 启动 Ollama
ollama serve

# 后台运行(可选)
ollama serve &

# 查看已安装模型
ollama list

# 拉取模型(默认是 CPU 优化版本)
ollama pull qwen3.5
ollama pull llama3.2:3b
ollama pull mistral

使用 Ollama

1. 命令行交互

bash 复制代码
# 开始对话
ollama run qwen3.5

# 退出对话
Ctrl+D 或输入 /exit

# 指定版本
ollama run qwen3.5:7b

2. 设置环境变量

bash 复制代码
# 设置上下文长度(默认 4096)
OLLAMA_NUM_GPU_LAYERS=0 ollama serve

# 设置最大并发请求数
OLLAMA_MAX_CONCURRENT_REQUESTS=4 ollama serve

本地开发

1. Python API 使用

python 复制代码
import requests
from langchain_ollama import ChatOllama

# 创建聊天实例
llm = ChatOllama(model="qwen3.5", base_url="http://localhost:11434")

# 进行对话
response = llm.invoke("你好,请介绍一下 Ollama")
print(response)

2. JavaScript/TypeScript 使用

javascript 复制代码
// 使用 OpenAI 格式的 Node 客户端
const response = await fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen3.5",
    prompt: "你好,请介绍一下 Ollama",
    stream: false
  })
});

const result = await response.json();
console.log(result.response);

3. VS Code 扩展

安装 Ollama 插件,即可在编辑器中直接使用本地模型进行代码辅助、文档生成等。


配置建议

1. 模型选择

模型名称 适用场景 内存需求
qwen3.5:7b 通用对话、代码 ~7GB
qwen3.5:14b 复杂任务、多模态 ~14GB
llama3.2:3b 轻量设备、快速响应 ~3GB
mistral 欧洲用户推荐 ~4GB

2. 性能优化

  • 使用 --num-gpu-layers 参数指定 GPU 层数
  • 设置 OLLAMA_MAX_LOADED_MODELS 控制并发模型数量
  • 使用 OLLAMA_NUM_PARALLEL 设置并发请求数

常见问题

1. 模型加载失败

bash 复制代码
# 清理缓存
ollama rm <model-name>
ollama pull <model-name>

# 重启服务
ollama serve

2. 内存不足

bash 复制代码
# 使用更小的模型
ollama pull llama3.2:3b
ollama run llama3.2:3b

3. 网络问题

bash 复制代码
# 设置代理
OLLAMA_ORIGINS="http://localhost" ollama serve

总结

Ollama 是一个简单、高效的本地 LLM 运行框架,无需复杂配置即可快速投入使用。支持多种主流模型,提供丰富的 API 接口,适合开发者和个人用户。

建议:定期更新 Ollama 和模型版本,以获得最佳性能。


作者 :AI 技术爱好者
许可协议 :MIT License
联系方式 :[your-email@example.com]


推荐阅读


本文档基于实际部署经验整理,持续更新中。

相关推荐
eastyuxiao14 小时前
OpenClaw 自动处理核心逻辑
开发语言·人工智能
一次旅行14 小时前
今日AI新闻科技简报总结
人工智能·科技
qq_1715388514 小时前
医者仁心:医生职业全景解析
人工智能
漫游的渔夫14 小时前
前端开发者做 Agent:别写成一次请求,用 5 步受控循环防止 AI 乱跑
前端·人工智能·typescript
eastyuxiao14 小时前
影响 OpenClaw 自动处理效率的核心因素
开发语言·人工智能
Luca_kill14 小时前
GPT Image 2 深度评测:当 AI 图像生成跨越“图灵测试”,它如何重塑开发者工作流?
人工智能·深度学习·openai·ai图像生成·gpt image 2
GIS数据转换器14 小时前
“一张图”背景下的地质灾害监测预警与防治能力建设
大数据·人工智能·数据分析·无人机·智慧城市
nbwenren14 小时前
2026技术实战:用ChatGPT将百份文档变成“可对话知识库”(国内直访方案详解)
人工智能
Elastic 中国社区官方博客14 小时前
在 Elastic 中使用 MCP 自动化用户旅程以进行合成监控
大数据·运维·人工智能·elasticsearch·搜索引擎·自动化·可用性测试