一、背景认知
1.1 模型家族简介
- Gemma 系列 :Google DeepMind 于 2026 年 4 月 2 日发布的第四代开源大模型,与闭源旗舰 Gemini 3 共享同源底层技术。采用Apache 2.0 完全开源协议(无商用限制、可二次修改分发),是当前同参数规模下性能最强的开源模型之一,全球下载量已突破 4 亿次。
- Llama 系列 :Meta AI 于 2026 年 3 月发布的 Llama 4 Scout,采用混合专家架构(激活 17B / 总参 109B),拥有10M 超长上下文窗口,是长文本处理场景的首选。采用 Llama 4 社区协议,非商用完全免费,商用需申请 Meta 授权。
1.2 核心优势对比
| 特性 | Gemma 4 系列 | Llama 4 系列 |
|---|---|---|
| 开源协议 | Apache 2.0(完全免费商用) | Llama 社区协议(商用需授权) |
| 上下文窗口 | E2B/E4B:128K31B/26B:256K | 10M |
| 多模态能力 | 文本 + 图像 + 视频 + OCRE2B/E4B 额外支持音频 | 文本 + 图像(早期融合) |
| 端侧适配性 | 极佳(E2B 可在手机运行) | 较差 |
| 数学推理 | 极强(AIME 2026:89.2%) | 优秀 |
| 编程能力 | 极强(Codeforces ELO:2150) | 优秀 |
| 中文支持 | 良好 | 一般(需中文微调版) |
1.3 为什么选择 Ollama?
Ollama 是当前最主流的本地大模型一键部署与管理工具 ,跨平台兼容 Windows/macOS/Linux。它彻底解决了传统本地部署需要手动配置环境、适配硬件、编译底层库的高门槛问题,一行命令即可完成模型的下载、运行、管理,是初学者入门本地 AI 的首选方案。
二、核心配置
2.1 硬件要求速查表(4-bit 量化模型基准)
| 模型规模 | 最低内存 (RAM) | 最低显存 (VRAM) | 存储空间 | 推荐 GPU | 适合场景 |
|---|---|---|---|---|---|
| Gemma 4 E2B(2.3B) | 4GB | 无需 / 2GB | 5GB | 集成显卡 / RTX 3050 | 入门体验、手机 / 树莓派 |
| Gemma 4 E4B(4.5B) | 8GB | 4GB | 8GB | RTX 3060 6GB | 日常聊天、个人助手 |
| Llama 3.2 8B | 16GB | 6-8GB | 10GB | RTX 3060 12GB | 代码补全、中等推理 |
| Gemma 4 26B-A4B | 24GB | 16GB | 20GB | RTX 4070 12GB | 复杂对话、专业任务 |
| Gemma 4 31B | 32GB | 24GB | 25GB | RTX 4080 16GB | 高性能推理、开发测试 |
| Llama 4 Scout | 64GB | 48GB | 60GB | RTX 5090 24GB×2 | 超长文本、生产环境 |
2.2 软件环境要求
- 操作系统:Windows 10/11、macOS 12+、Linux(Ubuntu 20.04 + 推荐)
- Ollama 版本:v0.16.1 及以上(2026 年 3 月更新,支持 Gemma 4 和 Llama 4)
- 存储类型:强烈建议使用 SSD(机械硬盘会导致模型加载和推理速度极慢)
- GPU 支持 :
- NVIDIA:计算能力 5.0+,驱动版本 531+Ollama
- Apple Silicon:M1 及以上(统一内存架构,性能优异)
- AMD:ROCm 5.7 + 支持
2.3 初学者模型选择指南
- 绝对入门(8GB 内存,无独立显卡) :
gemma-4-e2b-it(2.3B 参数,4GB 内存即可流畅运行) - 日常使用(16GB 内存,4GB 显存) :
gemma-4-e4b-it(4.5B 参数,支持多模态) - 性能优先(24GB 内存,12GB 显存) :
gemma-4-26b-a4b-it(混合专家架构,性价比最高) - 长文本处理(32GB 内存,16GB 显存) :
llama3.1:70b-q4_K_M(70B 参数,128K 上下文)
三、基础实操
3.1 安装 Ollama
Windows 系统
- 访问 Ollama 官网:https://ollama.com
- 点击 "Download for Windows" 下载安装包
- 双击运行安装程序,一路点击 "Next" 完成安装
- 安装完成后,系统会自动启动 Ollama 服务(任务栏会出现 Ollama 图标)
macOS 系统
-
访问 Ollama 官网下载 macOS 版安装包
-
将 Ollama 拖入应用程序文件夹
-
打开终端,输入以下命令验证安装:
ollama --version
Linux 系统
打开终端,执行以下一键安装命令:
curl -fsSL https://ollama.com/install.sh | sh
3.2 验证安装
打开终端(Windows 使用 CMD 或 PowerShell),输入:
ollama
如果显示 Ollama 的帮助信息,说明安装成功。
3.3 下载并运行第一个模型
运行 Gemma 4 E2B(入门首选)
ollama run gemma-4-e2b-it
- 首次运行会自动下载模型文件(约 4GB)
- 下载完成后会自动进入交互式对话模式
- 看到
>>>提示符后,就可以开始输入问题了
运行 Llama 3.1 8B
ollama run llama3.1
3.4 基础命令行交互
-
对话 :直接在
>>>后输入问题,按回车发送 -
退出 :输入
/bye或按Ctrl+D -
查看帮助 :输入
/help -
查看当前模型信息 :输入
/show -
设置参数 :输入
/set parameter value(例如/set temperature 0.7) -
单次查询:不进入交互模式,直接执行命令
ollama run gemma-4-e2b-it "用一句话解释什么是大语言模型"
3.5 安装图形界面(Open WebUI)
命令行交互不够直观,推荐安装 Open WebUI 获得类似 ChatGPT 的图形界面:
-
首先确保已安装 Docker Desktop(https://www.docker.com/products/docker-desktop/)
-
打开终端,执行以下命令:
docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
-
打开浏览器,访问:http://localhost:3000
-
注册一个本地账号(仅保存在本地,不会上传数据)
-
登录后,系统会自动连接到本地运行的 Ollama 服务,你可以在界面中选择已安装的模型进行对话
四、高阶用法
4.1 模型管理
-
列出已安装的模型:
ollama list
-
下载模型(不运行):
ollama pull gemma-4-e4b-it
-
删除模型:
ollama rm gemma-4-e2b-it
-
查看模型详细信息:
ollama show gemma-4-e4b-it
4.2 REST API 调用
Ollama 默认在http://localhost:11434提供 REST API 服务,支持跨语言调用。
生成文本(非流式)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-e4b-it",
"prompt": "解释量子计算的基本原理",
"stream": false
}'
多轮对话(流式)
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-e4b-it",
"messages": [
{"role": "system", "content": "你是一个专业的编程老师"},
{"role": "user", "content": "如何用Python实现一个简单的计算器"}
],
"stream": true
}'
4.3 Python SDK 调用
安装 Ollama Python 包:
pip install ollama
基本对话示例:
import ollama
response = ollama.chat(
model="gemma-4-e4b-it",
messages=[
{"role": "user", "content": "写一个Python函数,计算斐波那契数列"}
]
)
print(response['message']['content'])
流式输出示例:
import ollama
for chunk in ollama.chat(
model="gemma-4-e4b-it",
messages=[{"role": "user", "content": "讲一个关于AI的故事"}],
stream=True
):
print(chunk['message']['content'], end='', flush=True)
4.4 自定义模型(Modelfile)
你可以通过 Modelfile 创建自定义模型,设置系统提示词、参数等:
创建一个名为Modelfile的文件:
FROM gemma-4-e4b-it
SYSTEM "你是一个专业的Python开发工程师,回答问题时要简洁明了,提供可运行的代码示例。"
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
构建自定义模型:
ollama create python-assistant -f Modelfile
运行自定义模型:
ollama run python-assistant
4.5 多模态使用(Gemma 4)
Gemma 4 E2B 和 E4B 支持图像输入:
ollama run gemma-4-e4b-it "描述这张图片的内容" /path/to/your/image.jpg
在 Python 中使用多模态:
import ollama
response = ollama.chat(
model="gemma-4-e4b-it",
messages=[
{
"role": "user",
"content": "这张图片里有什么?",
"images": ["/path/to/your/image.jpg"]
}
]
)
print(response['message']['content'])
4.6 性能优化
-
选择合适的量化级别 :
q4_K_M:性价比首选,兼顾速度与质量(精度损失 < 2%)q5_K_M:对精度要求较高时使用(精度损失 < 1%)q8_0:接近原始精度,但显存占用较高
-
指定 GPU 使用:
使用第0块GPU
CUDA_VISIBLE_DEVICES=0 ollama run gemma-4-26b-a4b-it
-
调整上下文窗口大小:
ollama run gemma-4-e4b-it:16k
五、拓展建议
5.1 常见问题排查
-
模型下载慢:
- 检查网络连接
- 使用国内镜像源(如阿里云、腾讯云)
- 手动下载 GGUF 文件,然后通过
ollama create导入
-
运行卡顿或闪退:
- 检查硬件是否满足模型要求
- 关闭其他占用内存 / 显存的程序
- 尝试使用更小参数的模型或更低的量化级别
- 增加虚拟内存大小(Windows)
-
GPU 不被识别:
- 更新显卡驱动到最新版本
- NVIDIA 用户确保安装了 CUDA Toolkit
- 检查 Ollama 是否支持你的显卡计算能力
5.2 进阶学习路径
- 模型微调:学习使用 LoRA 技术对 Gemma/Llama 进行轻量级微调,适应特定领域任务
- RAG 应用开发:结合 LangChain 和向量数据库,构建个人知识库问答系统
- Agent 开发:学习如何让大模型使用工具,完成复杂的多步骤任务
- 模型量化与优化:深入了解 GGUF 格式和量化技术,进一步降低模型部署门槛
5.3 生态工具推荐
- Open WebUI:功能最丰富的本地大模型 Web 界面
- LangChain:大语言模型应用开发框架
- LlamaIndex:专为 RAG 设计的数据框架
- Text Generation WebUI:另一个流行的大模型 Web 界面,支持更多高级功能
- Ollama WebUI:轻量级的 Ollama Web 界面
5.4 安全与隐私注意事项
- 本地运行大模型可以保护你的数据隐私,所有对话都不会上传到云端
- 不要使用本地大模型处理高度敏感的信息(如密码、银行卡号等)
- 注意模型可能会生成有害或不准确的内容,使用时保持批判性思维
- 商用时注意遵守相应的开源协议,特别是 Llama 系列需要申请 Meta 的商用授权