主流大模型使用指南:Gemma/Llama 全流程

一、背景认知

1.1 模型家族简介

  • Gemma 系列 :Google DeepMind 于 2026 年 4 月 2 日发布的第四代开源大模型,与闭源旗舰 Gemini 3 共享同源底层技术。采用Apache 2.0 完全开源协议(无商用限制、可二次修改分发),是当前同参数规模下性能最强的开源模型之一,全球下载量已突破 4 亿次。
  • Llama 系列 :Meta AI 于 2026 年 3 月发布的 Llama 4 Scout,采用混合专家架构(激活 17B / 总参 109B),拥有10M 超长上下文窗口,是长文本处理场景的首选。采用 Llama 4 社区协议,非商用完全免费,商用需申请 Meta 授权。

1.2 核心优势对比

特性 Gemma 4 系列 Llama 4 系列
开源协议 Apache 2.0(完全免费商用) Llama 社区协议(商用需授权)
上下文窗口 E2B/E4B:128K31B/26B:256K 10M
多模态能力 文本 + 图像 + 视频 + OCRE2B/E4B 额外支持音频 文本 + 图像(早期融合)
端侧适配性 极佳(E2B 可在手机运行) 较差
数学推理 极强(AIME 2026:89.2%) 优秀
编程能力 极强(Codeforces ELO:2150) 优秀
中文支持 良好 一般(需中文微调版)

1.3 为什么选择 Ollama?

Ollama 是当前最主流的本地大模型一键部署与管理工具 ,跨平台兼容 Windows/macOS/Linux。它彻底解决了传统本地部署需要手动配置环境、适配硬件、编译底层库的高门槛问题,一行命令即可完成模型的下载、运行、管理,是初学者入门本地 AI 的首选方案。

二、核心配置

2.1 硬件要求速查表(4-bit 量化模型基准)

模型规模 最低内存 (RAM) 最低显存 (VRAM) 存储空间 推荐 GPU 适合场景
Gemma 4 E2B(2.3B) 4GB 无需 / 2GB 5GB 集成显卡 / RTX 3050 入门体验、手机 / 树莓派
Gemma 4 E4B(4.5B) 8GB 4GB 8GB RTX 3060 6GB 日常聊天、个人助手
Llama 3.2 8B 16GB 6-8GB 10GB RTX 3060 12GB 代码补全、中等推理
Gemma 4 26B-A4B 24GB 16GB 20GB RTX 4070 12GB 复杂对话、专业任务
Gemma 4 31B 32GB 24GB 25GB RTX 4080 16GB 高性能推理、开发测试
Llama 4 Scout 64GB 48GB 60GB RTX 5090 24GB×2 超长文本、生产环境

2.2 软件环境要求

  • 操作系统:Windows 10/11、macOS 12+、Linux(Ubuntu 20.04 + 推荐)
  • Ollama 版本:v0.16.1 及以上(2026 年 3 月更新,支持 Gemma 4 和 Llama 4)
  • 存储类型:强烈建议使用 SSD(机械硬盘会导致模型加载和推理速度极慢)
  • GPU 支持
    • NVIDIA:计算能力 5.0+,驱动版本 531+Ollama
    • Apple Silicon:M1 及以上(统一内存架构,性能优异)
    • AMD:ROCm 5.7 + 支持

2.3 初学者模型选择指南

  • 绝对入门(8GB 内存,无独立显卡)gemma-4-e2b-it(2.3B 参数,4GB 内存即可流畅运行)
  • 日常使用(16GB 内存,4GB 显存)gemma-4-e4b-it(4.5B 参数,支持多模态)
  • 性能优先(24GB 内存,12GB 显存)gemma-4-26b-a4b-it(混合专家架构,性价比最高)
  • 长文本处理(32GB 内存,16GB 显存)llama3.1:70b-q4_K_M(70B 参数,128K 上下文)

三、基础实操

3.1 安装 Ollama

Windows 系统
  1. 访问 Ollama 官网:https://ollama.com
  2. 点击 "Download for Windows" 下载安装包
  3. 双击运行安装程序,一路点击 "Next" 完成安装
  4. 安装完成后,系统会自动启动 Ollama 服务(任务栏会出现 Ollama 图标)
macOS 系统
  1. 访问 Ollama 官网下载 macOS 版安装包

  2. 将 Ollama 拖入应用程序文件夹

  3. 打开终端,输入以下命令验证安装:

    ollama --version

Linux 系统

打开终端,执行以下一键安装命令:

复制代码
curl -fsSL https://ollama.com/install.sh | sh

3.2 验证安装

打开终端(Windows 使用 CMD 或 PowerShell),输入:

复制代码
ollama

如果显示 Ollama 的帮助信息,说明安装成功。

3.3 下载并运行第一个模型

运行 Gemma 4 E2B(入门首选)
复制代码
ollama run gemma-4-e2b-it
  • 首次运行会自动下载模型文件(约 4GB)
  • 下载完成后会自动进入交互式对话模式
  • 看到>>>提示符后,就可以开始输入问题了
运行 Llama 3.1 8B
复制代码
ollama run llama3.1

3.4 基础命令行交互

  • 对话 :直接在>>>后输入问题,按回车发送

  • 退出 :输入/bye或按Ctrl+D

  • 查看帮助 :输入/help

  • 查看当前模型信息 :输入/show

  • 设置参数 :输入/set parameter value(例如/set temperature 0.7

  • 单次查询:不进入交互模式,直接执行命令

    ollama run gemma-4-e2b-it "用一句话解释什么是大语言模型"

3.5 安装图形界面(Open WebUI)

命令行交互不够直观,推荐安装 Open WebUI 获得类似 ChatGPT 的图形界面:

  1. 首先确保已安装 Docker Desktop(https://www.docker.com/products/docker-desktop/

  2. 打开终端,执行以下命令:

    docker run -d -p 3000:3000 -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

  3. 打开浏览器,访问:http://localhost:3000

  4. 注册一个本地账号(仅保存在本地,不会上传数据)

  5. 登录后,系统会自动连接到本地运行的 Ollama 服务,你可以在界面中选择已安装的模型进行对话

四、高阶用法

4.1 模型管理

  • 列出已安装的模型

    ollama list

  • 下载模型(不运行)

    ollama pull gemma-4-e4b-it

  • 删除模型

    ollama rm gemma-4-e2b-it

  • 查看模型详细信息

    ollama show gemma-4-e4b-it

4.2 REST API 调用

Ollama 默认在http://localhost:11434提供 REST API 服务,支持跨语言调用。

生成文本(非流式)
复制代码
curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-e4b-it",
    "prompt": "解释量子计算的基本原理",
    "stream": false
  }'
多轮对话(流式)
复制代码
curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-e4b-it",
    "messages": [
      {"role": "system", "content": "你是一个专业的编程老师"},
      {"role": "user", "content": "如何用Python实现一个简单的计算器"}
    ],
    "stream": true
  }'

4.3 Python SDK 调用

安装 Ollama Python 包:

复制代码
pip install ollama

基本对话示例:

复制代码
import ollama

response = ollama.chat(
    model="gemma-4-e4b-it",
    messages=[
        {"role": "user", "content": "写一个Python函数,计算斐波那契数列"}
    ]
)

print(response['message']['content'])

流式输出示例:

复制代码
import ollama

for chunk in ollama.chat(
    model="gemma-4-e4b-it",
    messages=[{"role": "user", "content": "讲一个关于AI的故事"}],
    stream=True
):
    print(chunk['message']['content'], end='', flush=True)

4.4 自定义模型(Modelfile)

你可以通过 Modelfile 创建自定义模型,设置系统提示词、参数等:

创建一个名为Modelfile的文件:

复制代码
FROM gemma-4-e4b-it

SYSTEM "你是一个专业的Python开发工程师,回答问题时要简洁明了,提供可运行的代码示例。"

PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

构建自定义模型:

复制代码
ollama create python-assistant -f Modelfile

运行自定义模型:

复制代码
ollama run python-assistant

4.5 多模态使用(Gemma 4)

Gemma 4 E2B 和 E4B 支持图像输入:

复制代码
ollama run gemma-4-e4b-it "描述这张图片的内容" /path/to/your/image.jpg

在 Python 中使用多模态:

复制代码
import ollama

response = ollama.chat(
    model="gemma-4-e4b-it",
    messages=[
        {
            "role": "user",
            "content": "这张图片里有什么?",
            "images": ["/path/to/your/image.jpg"]
        }
    ]
)

print(response['message']['content'])

4.6 性能优化

  • 选择合适的量化级别

    • q4_K_M:性价比首选,兼顾速度与质量(精度损失 < 2%)
    • q5_K_M:对精度要求较高时使用(精度损失 < 1%)
    • q8_0:接近原始精度,但显存占用较高
  • 指定 GPU 使用

    使用第0块GPU

    CUDA_VISIBLE_DEVICES=0 ollama run gemma-4-26b-a4b-it

  • 调整上下文窗口大小

    ollama run gemma-4-e4b-it:16k

五、拓展建议

5.1 常见问题排查

  1. 模型下载慢

    • 检查网络连接
    • 使用国内镜像源(如阿里云、腾讯云)
    • 手动下载 GGUF 文件,然后通过ollama create导入
  2. 运行卡顿或闪退

    • 检查硬件是否满足模型要求
    • 关闭其他占用内存 / 显存的程序
    • 尝试使用更小参数的模型或更低的量化级别
    • 增加虚拟内存大小(Windows)
  3. GPU 不被识别

    • 更新显卡驱动到最新版本
    • NVIDIA 用户确保安装了 CUDA Toolkit
    • 检查 Ollama 是否支持你的显卡计算能力

5.2 进阶学习路径

  1. 模型微调:学习使用 LoRA 技术对 Gemma/Llama 进行轻量级微调,适应特定领域任务
  2. RAG 应用开发:结合 LangChain 和向量数据库,构建个人知识库问答系统
  3. Agent 开发:学习如何让大模型使用工具,完成复杂的多步骤任务
  4. 模型量化与优化:深入了解 GGUF 格式和量化技术,进一步降低模型部署门槛

5.3 生态工具推荐

  • Open WebUI:功能最丰富的本地大模型 Web 界面
  • LangChain:大语言模型应用开发框架
  • LlamaIndex:专为 RAG 设计的数据框架
  • Text Generation WebUI:另一个流行的大模型 Web 界面,支持更多高级功能
  • Ollama WebUI:轻量级的 Ollama Web 界面

5.4 安全与隐私注意事项

  • 本地运行大模型可以保护你的数据隐私,所有对话都不会上传到云端
  • 不要使用本地大模型处理高度敏感的信息(如密码、银行卡号等)
  • 注意模型可能会生成有害或不准确的内容,使用时保持批判性思维
  • 商用时注意遵守相应的开源协议,特别是 Llama 系列需要申请 Meta 的商用授权
相关推荐
阿里云云原生5 小时前
从 Token 级观测到标准化治理:LoongSuite 如何补齐 OpenTelemetry 的 AI 可观测短板?
云原生
沧州刺史6 小时前
k8s 拉取镜像时,请求提前断开(EOF)导致拉取失败
云原生·容器·kubernetes
2501_912784086 小时前
告别“汗水出海”:基于微服务架构的跨境电商系统设计与实现——以Taocarts为例
微服务·云原生·架构·taocarts
牛奶咖啡137 小时前
k8s容器编排技术实践——k8s的介绍及其整体运行架构
云原生·kubernetes·k8s是什么?有啥用?·k8s的应用场景·k8s的优缺点边界·k8s的重要概念·k8s的整体运行架构
狼与自由7 小时前
微服务的演化过程
微服务·云原生·架构
小坏讲微服务8 小时前
小白搭建K8S集群0基础教程实战
docker·云原生·容器·kubernetes
9命怪猫9 小时前
[K8S小白问题集] - K8S为什么选择etcd而不是别的key-value DB?比如Redis
云原生·容器·kubernetes
东北甜妹10 小时前
k8s特殊容器 和 调度管理
云原生·容器·kubernetes
眷蓝天11 小时前
Kubernetes 特殊容器技术详解
云原生·容器·kubernetes