LLMs之Llama：Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

[LLMs之Llama 4：《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读](#LLMs之Llama 4：《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读)

[LLMs之Llama：Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略](#LLMs之Llama：Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略)

[Llama 4 Maverick & Scout的简介](#Llama 4 Maverick & Scout的简介)

[1、Llama 4 Maverick & Scout 特点](#1、Llama 4 Maverick & Scout 特点)

2、模型评估

[Llama 4 Maverick & Scout的安装和使用方法](#Llama 4 Maverick & Scout的安装和使用方法)

1、安装

2、使用方法

[Llama 4 Maverick & Scout的案例应用](#Llama 4 Maverick & Scout的案例应用)

LLMs之Llama 4：《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读

LLMs之Llama 4：《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解-CSDN博客

LLMs之Llama：Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama：Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Llama 4 Maverick & Scout 的简介

2025年4月5日，Llama 4 是 Meta 开发的新一代自回归混合专家 (MoE) 架构大型语言模型。该系列包含两个主要模型：

>> Llama 4 Maverick：拥有约 4000 亿个参数（其中 170 亿为活跃参数），包含 128 个专家。

>> Llama 4 Scout：拥有约 1090 亿个参数（其中 170 亿为活跃参数），包含 16 个专家。

这两个模型都采用了早期融合 (early fusion) 技术，能够原生处理文本和图像输入。它们都基于超过 40 万亿个 token 的数据进行训练，涵盖 200 多种语言（其中 12 种语言，包括阿拉伯语、西班牙语、德语和印地语，有专门的微调支持）。

Llama 4 Maverick 和 Llama 4 Scout 是 Meta 推出的强大且高效的多模态大型语言模型，它们在上下文长度、多模态处理和性能方面取得了显著的进步。这两个模型的发布，将极大地促进多模态 AI 的发展和应用。

HuggingFace地址 ：https://huggingface.co/blog/llama4-release

1、 Llama 4 Maverick & Scout 特点

>> 混合专家 (MoE) 架构： 采用 MoE 架构，单个 token 只激活一部分参数，提高了训练和推理效率。
>> 原生多模态 ：能够原生处理文本和图像输入，这得益于早期融合技术。
>> 长上下文窗口： Llama 4 Scout 的上下文窗口长度达到惊人的 1000 万 token；Llama 4 Maverick 的上下文窗口长度为 100 万 token。
>> 高效部署： Llama 4 Scout 经过设计，可以通过动态 4 位或 8 位量化，在单个服务器级 GPU 上运行；Llama 4 Maverick 提供 BF16 和 FP8 格式，方便在兼容硬件上高效部署。
>> 架构创新 (iRoPE) ：为了支持长上下文，Llama 4 使用了交错注意力层 (interleaved attention layers) 和无位置嵌入 (NoPE) 层，以及在 RoPE 层中使用分块注意力 (chunked attention) 和注意力温度调整 (attention temperature tuning)。在 RoPE 层中，每四个解码器层中就有一个 NoPE 层，而 RoPE 层则使用分块注意力，将上下文分成 8192 个块进行处理。注意力温度调整用于解决长序列中注意力概率分数衰减的问题。Llama Scout 还使用了 Query 和 Key 状态的 L2 正则化。

2、模型评估

Llama 4 模型在各种基准测试上的评估结果，显示其性能显著优于 Llama 3.1 405B 等之前的模型，尤其是在推理、知识、编码、多语言和图像理解方面。具体分数在文章中以表格形式列出，包括预训练模型和指令微调模型的评估结果。

Llama 4 Maverick & Scout 的安装和使用方法

Hugging Face 提供了对 Llama 4 模型的无缝集成：
>> 模型权重 ：Llama 4 Maverick 和 Llama 4 Scout 的模型权重可以直接在 Hugging Face Hub 上的 meta-llama 组织下访问，包括基础模型和指令微调版本。
>> Transformers 集成 ：这两个模型已完全集成到 Transformers 库 (v4.51.0 或更高版本) 中，可以使用熟悉的 API 进行加载、推理和微调，包括对原生多模态能力的支持。 Transformers 还自动支持张量并行和自动设备映射。
>> Text Generation Inference (TGI) 支持 ：TGI 提供了对 Llama 4 模型的优化和可扩展部署支持，方便集成到生产应用中。
>> 量化支持 ：为 Scout 提供了动态 int4 量化代码，在最小化性能下降的同时，使其能够在较小的硬件上部署；Maverick 提供了 FP8 量化权重。
>> Xet 存储 ：使用 Xet 存储后端，并支持社区微调模型的快速迭代。，提高了上传和下载速度。

1、安装

下载地址：https://huggingface.co/blog/llama4-release

2、使用方法

代码示例 (Llama 4 Maverick，使用张量并行)：

需要在具有 8 个 GPU 的实例上运行此脚本，例如：torchrun --nproc-per-instance=8 script.py

python 复制代码

from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

# ... (图像URL和问题定义) ...

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

Llama 4 Maverick & Scout 的案例应用

Llama 4 模型的长上下文窗口可以用于：多文档摘要，解析大量的用户活动以进行个性化任务，对大型代码库进行推理，以及 Llama 4 Maverick 在图像和文本理解方面的卓越性能，使其能够用于构建跨越语言障碍的复杂 AI 应用，例如精确的图像理解和创意写作。

LLMs之Llama：Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

相关文章

LLMs之Llama 4：《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读

LLMs之Llama：Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略

Llama 4 Maverick & Scout 的 简介

1、 Llama 4 Maverick & Scout 特点

2、模型 评估

Llama 4 Maverick & Scout 的 安装和使用方法

1、安装

2、使用方法

Llama 4 Maverick & Scout 的 案例应用

Llama 4 Maverick & Scout 的简介

2、模型评估

Llama 4 Maverick & Scout 的安装和使用方法

Llama 4 Maverick & Scout 的案例应用