LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

目录

相关文章

[LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读](#LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读)

[LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略](#LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略)

[Llama 4 Maverick & Scout的简介](#Llama 4 Maverick & Scout的简介)

[1、Llama 4 Maverick & Scout 特点](#1、Llama 4 Maverick & Scout 特点)

2、模型评估

[Llama 4 Maverick & Scout的安装和使用方法](#Llama 4 Maverick & Scout的安装和使用方法)

1、安装

2、使用方法

[Llama 4 Maverick & Scout的案例应用](#Llama 4 Maverick & Scout的案例应用)


相关文章

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解-CSDN博客

LLMs之Llama:Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Llama 4 Maverick & Scout 简介

2025年4月5日,Llama 4 是 Meta 开发的新一代自回归混合专家 (MoE) 架构大型语言模型。该系列包含两个主要模型:

>> Llama 4 Maverick:拥有约 4000 亿个参数(其中 170 亿为活跃参数),包含 128 个专家。

>> Llama 4 Scout:拥有约 1090 亿个参数(其中 170 亿为活跃参数),包含 16 个专家。

这两个模型都采用了早期融合 (early fusion) 技术,能够原生处理文本和图像输入。它们都基于超过 40 万亿个 token 的数据进行训练,涵盖 200 多种语言(其中 12 种语言,包括阿拉伯语、西班牙语、德语和印地语,有专门的微调支持)。

Llama 4 Maverick 和 Llama 4 Scout 是 Meta 推出的强大且高效的多模态大型语言模型,它们在上下文长度、多模态处理和性能方面取得了显著的进步。这两个模型的发布,将极大地促进多模态 AI 的发展和应用。

HuggingFace地址https://huggingface.co/blog/llama4-release

1、 Llama 4 Maverick & Scout 特点

>> 混合专家 (MoE) 架构: 采用 MoE 架构,单个 token 只激活一部分参数,提高了训练和推理效率。
>> 原生多模态 :能够原生处理文本和图像输入,这得益于早期融合技术。
>> 长上下文窗口: Llama 4 Scout 的上下文窗口长度达到惊人的 1000 万 token;Llama 4 Maverick 的上下文窗口长度为 100 万 token。
>> 高效部署: Llama 4 Scout 经过设计,可以通过动态 4 位或 8 位量化,在单个服务器级 GPU 上运行;Llama 4 Maverick 提供 BF16 和 FP8 格式,方便在兼容硬件上高效部署。
>> 架构创新 (iRoPE) :为了支持长上下文,Llama 4 使用了交错注意力层 (interleaved attention layers) 和无位置嵌入 (NoPE) 层,以及在 RoPE 层中使用分块注意力 (chunked attention) 和注意力温度调整 (attention temperature tuning)。 在 RoPE 层中,每四个解码器层中就有一个 NoPE 层,而 RoPE 层则使用分块注意力,将上下文分成 8192 个块进行处理。注意力温度调整用于解决长序列中注意力概率分数衰减的问题。Llama Scout 还使用了 Query 和 Key 状态的 L2 正则化。

2、模型 评估

Llama 4 模型在各种基准测试上的评估结果,显示其性能显著优于 Llama 3.1 405B 等之前的模型,尤其是在推理、知识、编码、多语言和图像理解方面。 具体分数在文章中以表格形式列出,包括预训练模型和指令微调模型的评估结果。

Llama 4 Maverick & Scout 安装和使用方法

Hugging Face 提供了对 Llama 4 模型的无缝集成:
>> 模型权重 :Llama 4 Maverick 和 Llama 4 Scout 的模型权重可以直接在 Hugging Face Hub 上的 meta-llama 组织下访问,包括基础模型和指令微调版本。
>> Transformers 集成 :这两个模型已完全集成到 Transformers 库 (v4.51.0 或更高版本) 中,可以使用熟悉的 API 进行加载、推理和微调,包括对原生多模态能力的支持。 Transformers 还自动支持张量并行和自动设备映射。
>> Text Generation Inference (TGI) 支持 :TGI 提供了对 Llama 4 模型的优化和可扩展部署支持,方便集成到生产应用中。
>> 量化支持 :为 Scout 提供了动态 int4 量化代码,在最小化性能下降的同时,使其能够在较小的硬件上部署;Maverick 提供了 FP8 量化权重。
>> Xet 存储 :使用 Xet 存储后端,并支持社区微调模型的快速迭代。,提高了上传和下载速度。

1、安装

下载地址:https://huggingface.co/blog/llama4-release

2、使用方法

代码示例 (Llama 4 Maverick,使用张量并行):

需要在具有 8 个 GPU 的实例上运行此脚本,例如:torchrun --nproc-per-instance=8 script.py

python 复制代码
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

# ... (图像URL和问题定义) ...

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

Llama 4 Maverick & Scout 案例应用

Llama 4 模型的长上下文窗口可以用于:多文档摘要,解析大量的用户活动以进行个性化任务,对大型代码库进行推理,以及 Llama 4 Maverick 在图像和文本理解方面的卓越性能,使其能够用于构建跨越语言障碍的复杂 AI 应用,例如精确的图像理解和创意写作。

相关推荐
聚客AI3 小时前
🌈多感官AI革命:解密多模态对齐与融合的底层逻辑
人工智能·llm·掘金·日新计划
大模型教程5 小时前
12天带你速通大模型基础应用(四)声音克隆技术实践
程序员·llm·agent
大模型教程6 小时前
12天带你速通大模型基础应用(三)LLM全流程部署教程
程序员·llm·agent
AI大模型6 小时前
无所不能的Embedding(05) - skip-thought的兄弟们[Trim/CNN-LSTM/quick-thought]
程序员·llm·agent
AI大模型6 小时前
无所不能的Embedding(04) - skip-thought & tf-Seq2Seq源码解析
程序员·llm·agent
智泊AI7 小时前
AI大模型 | 从基本原理到代码理解语言模型的训练和推理过程
llm
智能建造小硕11 小时前
使用LLM(Ollama部署)为Bertopic确定的主题命名
llm·ollama
德育处主任14 小时前
讲真,文心一言X1.1出来后,我骗不到它了!
人工智能·llm·aigc
用户479492835691514 小时前
每天都在用大模型,但是你知道temperature、top_p、top_k这些常见参数是做什么的吗?
人工智能·面试·llm
RainbowSea1 天前
8. LangChain4j + 提示词工程详细说明
langchain·llm·ai编程