Llama 4 是什么?Meta 开源大模型完整指南:Scout、Maverick、Behemoth 对比与部署

Llama 4 是 Meta 于 2025 年 4 月发布的多模态大语言模型系列,采用混合专家(MoE)架构,旗下包含 Scout(109B 总参数)、Maverick(400B 总参数)两个已开放权重的模型,以及仍在训练中的超旗舰 Behemoth(约 2T 总参数)。这一代模型原生支持图文多模态输入,最长上下文窗口达 10M token,在多项 STEM 和代码基准测试上超越 GPT-4o 和 Claude Sonnet 3.7。
Llama 4 的三个模型是什么,有什么区别?
| 模型 | 总参数 | 激活参数 | 专家数 | 上下文窗口 | 开放权重 | 本地运行 |
|---|---|---|---|---|---|---|
| Llama 4 Scout | 109B | 17B | 16 | 10M token | ✅ 已开放 | 单张 H100 可运行 |
| Llama 4 Maverick | 400B | 17B | 128 | 1M token(最高 10M) | ✅ 已开放 | 需多卡 |
| Llama 4 Behemoth | ~2T | 288B | 16 | 未公布 | ❌ 仍在训练 | 企业/研究专用 |
关键理解:三个模型的"激活参数"相近(Scout/Maverick 均为 17B,Behemoth 为 288B),MoE 架构意味着每次推理只激活一部分专家网络,因此推理速度和内存占用远低于同等稠密模型。Behemoth 作为"教师模型",通过 codistillation 技术向 Scout 和 Maverick 传递知识。
Llama 4 和 Llama 3 的核心区别是什么?
Llama 3 系列采用稠密 Transformer 架构,最大版本为 405B,不支持多模态。Llama 4 在三个维度做了根本性升级:
架构升级
- Llama 3 用 RoPE 位置编码,Llama 4 放弃传统位置嵌入(iRoPE),更适配超长上下文
- 由稠密模型切换至 MoE,相同推理成本下可容纳更多总参数
多模态原生支持
- Llama 3 纯文本,Llama 4 内建视觉编码器,直接处理图像输入,无需外挂视觉模块
上下文窗口飞跃
- Llama 3.1 最长 128K token,Scout 扩展至 10M token,可一次性处理整本书籍
训练数据规模
- Scout 使用约 40T token 训练,Maverick 约 22T token
Llama 4 的性能基准数据
以下数据来自 Meta 官方基准测试(2025 年 4 月):
| 任务 | 评测集 | Llama 4 Maverick | Llama 4 Scout |
|---|---|---|---|
| 图像推理 | MMMU | 73.4 | 69.4 |
| 数学视觉 | MathVista | 73.7 | 70.7 |
| 图表理解 | ChartQA | 90.0 | 88.8 |
| 文档理解 | DocVQA | 94.4 | 94.4 |
| 代码能力 | LiveCodeBench | 43.4 | 32.8 |
| 综合知识 | MMLU Pro | 80.5 | 74.3 |
| 多语言 | Multilingual MMLU | 84.6 | --- |
Meta 官方声明 Behemoth 在多项 STEM 基准上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro,但该模型尚未对外开放。
怎么在本地运行 Llama 4?

方法一:Ollama(推荐新手)
bash
# 安装 Ollama(macOS)
brew install ollama
# 启动服务
ollama serve
# 拉取并运行 Scout(量化版,约 12GB VRAM)
ollama run llama4:scout
# 拉取 Maverick(需 24GB+ VRAM)
ollama run llama4:maverick
Ollama 会自动处理量化版本下载,Scout Q4 量化版在 RTX 4090 上推理速度约 45 tokens/s。
方法二:llama.cpp(更灵活)
bash
# 克隆并编译 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j$(nproc)
# 从 Hugging Face 下载 GGUF 格式模型
huggingface-cli download meta-llama/Llama-4-Scout-17B-16E-Instruct \
--include "*.gguf" --local-dir ./models/llama4-scout
# 启动推理服务
./llama-server -m ./models/llama4-scout/model.gguf \
-c 32768 --host 0.0.0.0 --port 8080
方法三:Python + transformers(开发集成)
python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model_id = "meta-llama/Llama-4-Scout-17B-16E-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
messages = [
{"role": "user", "content": "解释一下混合专家架构(MoE)是什么?"}
]
inputs = tokenizer.apply_chat_template(
messages, return_tensors="pt"
).to(model.device)
output = model.generate(inputs, max_new_tokens=512)
print(tokenizer.decode(output[0][inputs.shape[-1]:], skip_special_tokens=True))
显存需求参考
| 模型 | 精度 | 显存需求 | 推荐硬件 |
|---|---|---|---|
| Scout | FP16 | ~35GB | 2×RTX 4090 或 1×H100 |
| Scout | Q4 量化 | ~12GB | 单张 RTX 4090 / 3090 |
| Maverick | Q4 量化 | ~24GB | 单张 RTX 4090 |
| Behemoth | --- | 128GB+ | 企业多卡集群 |
怎么通过 API 调用 Llama 4?
不想本地部署,可以直接调用第三方 API 服务。以 OpenAI 兼容格式为例:
python
from openai import OpenAI
# 七牛云 AI 推理服务(兼容 OpenAI 接口,新用户 300 万 Token 免费)
client = OpenAI(
base_url="https://api.qiniu.com/v1",
api_key="YOUR_QINIU_API_KEY"
)
response = client.chat.completions.create(
model="llama4-maverick",
messages=[
{"role": "user", "content": "用 Python 写一个快速排序"}
],
max_tokens=1024
)
print(response.choices[0].message.content)
七牛云 AI 大模型推理服务同时集成了 Claude、Gemini、DeepSeek 等多个主流模型,API Key 激活即获最高 600 万免费 Token,适合在正式上线前做模型横向评测。
Llama 4 和 GPT-4o / Claude 3.7 / DeepSeek V3 怎么选?

| 维度 | Llama 4 Scout/Maverick | GPT-4o | Claude 3.7 Sonnet | DeepSeek V3 |
|---|---|---|---|---|
| 开放权重 | ✅ 可本地部署 | ❌ 仅 API | ❌ 仅 API | ✅ 可本地部署 |
| 多模态 | ✅ 图文 | ✅ 图文音频 | ✅ 图文 | 部分支持 |
| 最长上下文 | 10M(Scout) | 128K | 200K | 128K |
| 推理成本 | 低(MoE) | 中高 | 中高 | 低 |
| 中文能力 | 良好 | 优秀 | 优秀 | 优秀 |
| 代码能力 | 良好(43.4 LiveCode) | 优秀 | 优秀 | 优秀 |
选型建议:
- 需要长文档处理(>128K):Scout 是目前开源模型中上下文最长的选择
- 预算敏感 + 需要私有化部署:Scout Q4 量化版 12GB 显存可运行,总拥有成本最低
- 代码和推理为主:DeepSeek V3 或 Claude 3.7 仍有优势
- 企业多场景评测:优先跑基准测试再决定,不同任务模型表现差异明显
国内怎么访问和下载 Llama 4?
Meta 官方通过 llama.com 和 Hugging Face 分发模型权重,但需申请访问权限(通常几分钟内自动审批)。
下载渠道:
bash
# 方法一:Hugging Face CLI(需要申请权限并登录)
pip install huggingface_hub
huggingface-cli login
huggingface-cli download meta-llama/Llama-4-Scout-17B-16E-Instruct
# 方法二:ModelScope(国内镜像,无需翻墙)
pip install modelscope
modelscope download --model meta-llama/Llama-4-Scout-17B-16E-Instruct
# 方法三:魔搭社区 Web 下载
# 访问 https://modelscope.cn 搜索 Llama-4-Scout 直接下载
许可证注意事项:
Llama 4 采用 Llama 4 Community License,月活跃用户超过 7 亿的商业产品需要向 Meta 单独申请许可。中小规模商业使用和个人研究均可免费使用。
FAQ
Q:Llama 4 支持中文吗,效果怎样?
Maverick 在 Multilingual MMLU 得分 84.6,官方声明支持多语言包括中文。实际测试中,Maverick 的中文对话流畅,但在中文创作和细节理解上与 DeepSeek V3 仍有差距,建议针对具体任务做 A/B 测试后决定。
Q:Llama 4 Behemoth 什么时候开放?
截至 2026 年 6 月,Behemoth 仍未公开发布。Meta 官方表示仍在训练中,尚无确切时间表。Behemoth 定位为研究级"教师模型",未来是否开放权重也存在不确定性。
Q:Scout 和 Maverick 如何选?
大多数场景下 Scout 足够用:单 GPU 可运行、推理成本更低、上下文窗口反而更长(10M vs 1M)。只有在需要更强多模态理解或复杂推理(MMLU Pro 80.5 vs 74.3)时,才有必要上 Maverick。
Q:Llama 4 能做 fine-tuning 吗?
可以。两个模型均为开放权重,支持 LoRA/QLoRA 微调。使用 LLaMA-Factory 或 Axolotl 框架可快速启动,Scout 在单张 A100 上可完成 LoRA 微调。
Q:MoE 架构对显存有什么影响?
MoE 的总参数大,但推理时只激活部分专家,因此激活参数决定了推理显存需求,而非总参数。Scout 总参数 109B,但推理时激活 17B,量化后 12GB 显存即可运行,这是 MoE 的核心优势。
把 Scout Q4 量化版的 Ollama 命令加入团队的 AI 基础设施 Runbook,开发环境测试阶段可节省大量 API 调用费用,再根据实际效果决定是否切换到 Maverick 或其他模型。
延伸资源
- 多模型横向对比测试:七牛云 AI 大模型广场
- 免费 API Key 快速接入 Llama 4 及主流模型:七牛云 AI 推理 API Key
- Llama 4 官方模型卡和基准数据:Meta Llama 4 官方页面
- Llama 4 Hugging Face 仓库:meta-llama on Hugging Face