LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略
目录
[LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读](#LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读)
[LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略](#LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略)
[Llama 4 Maverick & Scout的简介](#Llama 4 Maverick & Scout的简介)
[1、Llama 4 Maverick & Scout 特点](#1、Llama 4 Maverick & Scout 特点)
[Llama 4 Maverick & Scout的安装和使用方法](#Llama 4 Maverick & Scout的安装和使用方法)
[Llama 4 Maverick & Scout的案例应用](#Llama 4 Maverick & Scout的案例应用)
相关文章
LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读
LLMs之Llama:Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略
LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客
Llama 4 Maverick & Scout 的 简介
2025年4月5日,Llama 4 是 Meta 开发的新一代自回归混合专家 (MoE) 架构大型语言模型。该系列包含两个主要模型:
>> Llama 4 Maverick:拥有约 4000 亿个参数(其中 170 亿为活跃参数),包含 128 个专家。
>> Llama 4 Scout:拥有约 1090 亿个参数(其中 170 亿为活跃参数),包含 16 个专家。
这两个模型都采用了早期融合 (early fusion) 技术,能够原生处理文本和图像输入。它们都基于超过 40 万亿个 token 的数据进行训练,涵盖 200 多种语言(其中 12 种语言,包括阿拉伯语、西班牙语、德语和印地语,有专门的微调支持)。
Llama 4 Maverick 和 Llama 4 Scout 是 Meta 推出的强大且高效的多模态大型语言模型,它们在上下文长度、多模态处理和性能方面取得了显著的进步。这两个模型的发布,将极大地促进多模态 AI 的发展和应用。
HuggingFace地址 :https://huggingface.co/blog/llama4-release
1、 Llama 4 Maverick & Scout 特点
>> 混合专家 (MoE) 架构: 采用 MoE 架构,单个 token 只激活一部分参数,提高了训练和推理效率。
>> 原生多模态 :能够原生处理文本和图像输入,这得益于早期融合技术。
>> 长上下文窗口: Llama 4 Scout 的上下文窗口长度达到惊人的 1000 万 token;Llama 4 Maverick 的上下文窗口长度为 100 万 token。
>> 高效部署: Llama 4 Scout 经过设计,可以通过动态 4 位或 8 位量化,在单个服务器级 GPU 上运行;Llama 4 Maverick 提供 BF16 和 FP8 格式,方便在兼容硬件上高效部署。
>> 架构创新 (iRoPE) :为了支持长上下文,Llama 4 使用了交错注意力层 (interleaved attention layers) 和无位置嵌入 (NoPE) 层,以及在 RoPE 层中使用分块注意力 (chunked attention) 和注意力温度调整 (attention temperature tuning)。 在 RoPE 层中,每四个解码器层中就有一个 NoPE 层,而 RoPE 层则使用分块注意力,将上下文分成 8192 个块进行处理。注意力温度调整用于解决长序列中注意力概率分数衰减的问题。Llama Scout 还使用了 Query 和 Key 状态的 L2 正则化。
2、模型 评估
Llama 4 模型在各种基准测试上的评估结果,显示其性能显著优于 Llama 3.1 405B 等之前的模型,尤其是在推理、知识、编码、多语言和图像理解方面。 具体分数在文章中以表格形式列出,包括预训练模型和指令微调模型的评估结果。
Llama 4 Maverick & Scout 的 安装和使用方法
Hugging Face 提供了对 Llama 4 模型的无缝集成:
>> 模型权重 :Llama 4 Maverick 和 Llama 4 Scout 的模型权重可以直接在 Hugging Face Hub 上的 meta-llama 组织下访问,包括基础模型和指令微调版本。
>> Transformers 集成 :这两个模型已完全集成到 Transformers 库 (v4.51.0 或更高版本) 中,可以使用熟悉的 API 进行加载、推理和微调,包括对原生多模态能力的支持。 Transformers 还自动支持张量并行和自动设备映射。
>> Text Generation Inference (TGI) 支持 :TGI 提供了对 Llama 4 模型的优化和可扩展部署支持,方便集成到生产应用中。
>> 量化支持 :为 Scout 提供了动态 int4 量化代码,在最小化性能下降的同时,使其能够在较小的硬件上部署;Maverick 提供了 FP8 量化权重。
>> Xet 存储 :使用 Xet 存储后端,并支持社区微调模型的快速迭代。,提高了上传和下载速度。
1、安装
下载地址:https://huggingface.co/blog/llama4-release
2、使用方法
代码示例 (Llama 4 Maverick,使用张量并行):
需要在具有 8 个 GPU 的实例上运行此脚本,例如:torchrun --nproc-per-instance=8 script.py
python
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch
model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
model_id,
attn_implementation="flex_attention",
device_map="auto",
torch_dtype=torch.bfloat16,
)
# ... (图像URL和问题定义) ...
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
outputs = model.generate(**inputs, max_new_tokens=256)
response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])
Llama 4 Maverick & Scout 的 案例应用
Llama 4 模型的长上下文窗口可以用于:多文档摘要,解析大量的用户活动以进行个性化任务,对大型代码库进行推理,以及 Llama 4 Maverick 在图像和文本理解方面的卓越性能,使其能够用于构建跨越语言障碍的复杂 AI 应用,例如精确的图像理解和创意写作。