主流大模型使用指南：Gemma/Llama 全流程

一、背景认知

1.1 模型家族简介

Gemma 系列 ：Google DeepMind 于 2026 年 4 月 2 日发布的第四代开源大模型，与闭源旗舰 Gemini 3 共享同源底层技术。采用Apache 2.0 完全开源协议（无商用限制、可二次修改分发），是当前同参数规模下性能最强的开源模型之一，全球下载量已突破 4 亿次。
Llama 系列 ：Meta AI 于 2026 年 3 月发布的 Llama 4 Scout，采用混合专家架构（激活 17B / 总参 109B），拥有10M 超长上下文窗口，是长文本处理场景的首选。采用 Llama 4 社区协议，非商用完全免费，商用需申请 Meta 授权。

1.2 核心优势对比

特性	Gemma 4 系列	Llama 4 系列
开源协议	Apache 2.0（完全免费商用）	Llama 社区协议（商用需授权）
上下文窗口	E2B/E4B:128K31B/26B:256K	10M
多模态能力	文本 + 图像 + 视频 + OCRE2B/E4B 额外支持音频	文本 + 图像（早期融合）
端侧适配性	极佳（E2B 可在手机运行）	较差
数学推理	极强（AIME 2026:89.2%）	优秀
编程能力	极强（Codeforces ELO:2150）	优秀
中文支持	良好	一般（需中文微调版）

1.3 为什么选择 Ollama？

Ollama 是当前最主流的本地大模型一键部署与管理工具 ，跨平台兼容 Windows/macOS/Linux。它彻底解决了传统本地部署需要手动配置环境、适配硬件、编译底层库的高门槛问题，一行命令即可完成模型的下载、运行、管理，是初学者入门本地 AI 的首选方案。

二、核心配置

2.1 硬件要求速查表（4-bit 量化模型基准）

模型规模	最低内存 (RAM)	最低显存 (VRAM)	存储空间	推荐 GPU	适合场景
Gemma 4 E2B(2.3B)	4GB	无需 / 2GB	5GB	集成显卡 / RTX 3050	入门体验、手机 / 树莓派
Gemma 4 E4B(4.5B)	8GB	4GB	8GB	RTX 3060 6GB	日常聊天、个人助手
Llama 3.2 8B	16GB	6-8GB	10GB	RTX 3060 12GB	代码补全、中等推理
Gemma 4 26B-A4B	24GB	16GB	20GB	RTX 4070 12GB	复杂对话、专业任务
Gemma 4 31B	32GB	24GB	25GB	RTX 4080 16GB	高性能推理、开发测试
Llama 4 Scout	64GB	48GB	60GB	RTX 5090 24GB×2	超长文本、生产环境

2.2 软件环境要求

操作系统：Windows 10/11、macOS 12+、Linux（Ubuntu 20.04 + 推荐）
Ollama 版本：v0.16.1 及以上（2026 年 3 月更新，支持 Gemma 4 和 Llama 4）
存储类型：强烈建议使用 SSD（机械硬盘会导致模型加载和推理速度极慢）
GPU 支持 ：
- NVIDIA：计算能力 5.0+，驱动版本 531+Ollama
- Apple Silicon：M1 及以上（统一内存架构，性能优异）
- AMD：ROCm 5.7 + 支持

2.3 初学者模型选择指南

绝对入门（8GB 内存，无独立显卡） ：gemma-4-e2b-it（2.3B 参数，4GB 内存即可流畅运行）
日常使用（16GB 内存，4GB 显存） ：gemma-4-e4b-it（4.5B 参数，支持多模态）
性能优先（24GB 内存，12GB 显存） ：gemma-4-26b-a4b-it（混合专家架构，性价比最高）
长文本处理（32GB 内存，16GB 显存） ：llama3.1:70b-q4_K_M（70B 参数，128K 上下文）

三、基础实操

3.1 安装 Ollama

Windows 系统

访问 Ollama 官网：https://ollama.com
点击 "Download for Windows" 下载安装包
双击运行安装程序，一路点击 "Next" 完成安装
安装完成后，系统会自动启动 Ollama 服务（任务栏会出现 Ollama 图标）

macOS 系统

访问 Ollama 官网下载 macOS 版安装包
将 Ollama 拖入应用程序文件夹
打开终端，输入以下命令验证安装：

ollama --version

Linux 系统

打开终端，执行以下一键安装命令：

复制代码

curl -fsSL https://ollama.com/install.sh | sh

3.2 验证安装

打开终端（Windows 使用 CMD 或 PowerShell），输入：

复制代码

ollama

如果显示 Ollama 的帮助信息，说明安装成功。

3.3 下载并运行第一个模型

运行 Gemma 4 E2B（入门首选）

复制代码

ollama run gemma-4-e2b-it

首次运行会自动下载模型文件（约 4GB）
下载完成后会自动进入交互式对话模式
看到>>>提示符后，就可以开始输入问题了

运行 Llama 3.1 8B

复制代码

ollama run llama3.1

3.4 基础命令行交互

对话：直接在>>>后输入问题，按回车发送
退出：输入/bye或按Ctrl+D
查看帮助 ：输入/help
查看当前模型信息 ：输入/show
设置参数 ：输入/set parameter value（例如/set temperature 0.7）
单次查询：不进入交互模式，直接执行命令

ollama run gemma-4-e2b-it "用一句话解释什么是大语言模型"

3.5 安装图形界面（Open WebUI）

命令行交互不够直观，推荐安装 Open WebUI 获得类似 ChatGPT 的图形界面：

首先确保已安装 Docker Desktop（https://www.docker.com/products/docker-desktop/）
打开终端，执行以下命令：

docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
打开浏览器，访问：http://localhost:3000
注册一个本地账号（仅保存在本地，不会上传数据）
登录后，系统会自动连接到本地运行的 Ollama 服务，你可以在界面中选择已安装的模型进行对话

四、高阶用法

4.1 模型管理

列出已安装的模型：

ollama list
下载模型（不运行）：

ollama pull gemma-4-e4b-it
删除模型：

ollama rm gemma-4-e2b-it
查看模型详细信息：

ollama show gemma-4-e4b-it

4.2 REST API 调用

Ollama 默认在http://localhost:11434提供 REST API 服务，支持跨语言调用。

生成文本（非流式）

复制代码

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-e4b-it",
    "prompt": "解释量子计算的基本原理",
    "stream": false
  }'

多轮对话（流式）

复制代码

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-e4b-it",
    "messages": [
      {"role": "system", "content": "你是一个专业的编程老师"},
      {"role": "user", "content": "如何用Python实现一个简单的计算器"}
    ],
    "stream": true
  }'

4.3 Python SDK 调用

安装 Ollama Python 包：

复制代码

pip install ollama

基本对话示例：

复制代码

import ollama

response = ollama.chat(
    model="gemma-4-e4b-it",
    messages=[
        {"role": "user", "content": "写一个Python函数，计算斐波那契数列"}
    ]
)

print(response['message']['content'])

流式输出示例：

复制代码

import ollama

for chunk in ollama.chat(
    model="gemma-4-e4b-it",
    messages=[{"role": "user", "content": "讲一个关于AI的故事"}],
    stream=True
):
    print(chunk['message']['content'], end='', flush=True)

4.4 自定义模型（Modelfile）

你可以通过 Modelfile 创建自定义模型，设置系统提示词、参数等：

创建一个名为Modelfile的文件：

复制代码

FROM gemma-4-e4b-it

SYSTEM "你是一个专业的Python开发工程师，回答问题时要简洁明了，提供可运行的代码示例。"

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建自定义模型：

复制代码

ollama create python-assistant -f Modelfile

运行自定义模型：

复制代码

ollama run python-assistant

4.5 多模态使用（Gemma 4）

Gemma 4 E2B 和 E4B 支持图像输入：

复制代码

ollama run gemma-4-e4b-it "描述这张图片的内容" /path/to/your/image.jpg

在 Python 中使用多模态：

复制代码

import ollama

response = ollama.chat(
    model="gemma-4-e4b-it",
    messages=[
        {
            "role": "user",
            "content": "这张图片里有什么？",
            "images": ["/path/to/your/image.jpg"]
        }
    ]
)

print(response['message']['content'])

4.6 性能优化

选择合适的量化级别 ：
- q4_K_M：性价比首选，兼顾速度与质量（精度损失 < 2%）
- q5_K_M：对精度要求较高时使用（精度损失 < 1%）
- q8_0：接近原始精度，但显存占用较高
指定 GPU 使用：

使用第0块GPU

CUDA_VISIBLE_DEVICES=0 ollama run gemma-4-26b-a4b-it
调整上下文窗口大小：

ollama run gemma-4-e4b-it:16k

五、拓展建议

5.1 常见问题排查

模型下载慢：
- 检查网络连接
- 使用国内镜像源（如阿里云、腾讯云）
- 手动下载 GGUF 文件，然后通过ollama create导入
运行卡顿或闪退：
- 检查硬件是否满足模型要求
- 关闭其他占用内存 / 显存的程序
- 尝试使用更小参数的模型或更低的量化级别
- 增加虚拟内存大小（Windows）
GPU 不被识别：
- 更新显卡驱动到最新版本
- NVIDIA 用户确保安装了 CUDA Toolkit
- 检查 Ollama 是否支持你的显卡计算能力

5.2 进阶学习路径

模型微调：学习使用 LoRA 技术对 Gemma/Llama 进行轻量级微调，适应特定领域任务
RAG 应用开发：结合 LangChain 和向量数据库，构建个人知识库问答系统
Agent 开发：学习如何让大模型使用工具，完成复杂的多步骤任务
模型量化与优化：深入了解 GGUF 格式和量化技术，进一步降低模型部署门槛

5.3 生态工具推荐

Open WebUI：功能最丰富的本地大模型 Web 界面
LangChain：大语言模型应用开发框架
LlamaIndex：专为 RAG 设计的数据框架
Text Generation WebUI：另一个流行的大模型 Web 界面，支持更多高级功能
Ollama WebUI：轻量级的 Ollama Web 界面

5.4 安全与隐私注意事项

本地运行大模型可以保护你的数据隐私，所有对话都不会上传到云端
不要使用本地大模型处理高度敏感的信息（如密码、银行卡号等）
注意模型可能会生成有害或不准确的内容，使用时保持批判性思维
商用时注意遵守相应的开源协议，特别是 Llama 系列需要申请 Meta 的商用授权

主流大模型使用指南：Gemma/Llama 全流程

一、背景认知

1.1 模型家族简介

1.2 核心优势对比

1.3 为什么选择 Ollama？

二、核心配置

2.1 硬件要求速查表（4-bit 量化模型基准）

2.2 软件环境要求

2.3 初学者模型选择指南

三、基础实操

3.1 安装 Ollama

Windows 系统

macOS 系统

Linux 系统

3.2 验证安装

3.3 下载并运行第一个模型

运行 Gemma 4 E2B（入门首选）

运行 Llama 3.1 8B

3.4 基础命令行交互

3.5 安装图形界面（Open WebUI）

四、高阶用法

4.1 模型管理

4.2 REST API 调用

生成文本（非流式）

多轮对话（流式）

4.3 Python SDK 调用

4.4 自定义模型（Modelfile）

4.5 多模态使用（Gemma 4）

4.6 性能优化

使用第0块GPU

五、拓展建议

5.1 常见问题排查

5.2 进阶学习路径

5.3 生态工具推荐

5.4 安全与隐私注意事项