LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

目录

相关文章

[LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读](#LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读)

[LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略](#LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略)

[Llama 4 Maverick & Scout的简介](#Llama 4 Maverick & Scout的简介)

[1、Llama 4 Maverick & Scout 特点](#1、Llama 4 Maverick & Scout 特点)

2、模型评估

[Llama 4 Maverick & Scout的安装和使用方法](#Llama 4 Maverick & Scout的安装和使用方法)

1、安装

2、使用方法

[Llama 4 Maverick & Scout的案例应用](#Llama 4 Maverick & Scout的案例应用)


相关文章

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解-CSDN博客

LLMs之Llama:Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Llama 4 Maverick & Scout 简介

2025年4月5日,Llama 4 是 Meta 开发的新一代自回归混合专家 (MoE) 架构大型语言模型。该系列包含两个主要模型:

>> Llama 4 Maverick:拥有约 4000 亿个参数(其中 170 亿为活跃参数),包含 128 个专家。

>> Llama 4 Scout:拥有约 1090 亿个参数(其中 170 亿为活跃参数),包含 16 个专家。

这两个模型都采用了早期融合 (early fusion) 技术,能够原生处理文本和图像输入。它们都基于超过 40 万亿个 token 的数据进行训练,涵盖 200 多种语言(其中 12 种语言,包括阿拉伯语、西班牙语、德语和印地语,有专门的微调支持)。

Llama 4 Maverick 和 Llama 4 Scout 是 Meta 推出的强大且高效的多模态大型语言模型,它们在上下文长度、多模态处理和性能方面取得了显著的进步。这两个模型的发布,将极大地促进多模态 AI 的发展和应用。

HuggingFace地址https://huggingface.co/blog/llama4-release

1、 Llama 4 Maverick & Scout 特点

>> 混合专家 (MoE) 架构: 采用 MoE 架构,单个 token 只激活一部分参数,提高了训练和推理效率。
>> 原生多模态 :能够原生处理文本和图像输入,这得益于早期融合技术。
>> 长上下文窗口: Llama 4 Scout 的上下文窗口长度达到惊人的 1000 万 token;Llama 4 Maverick 的上下文窗口长度为 100 万 token。
>> 高效部署: Llama 4 Scout 经过设计,可以通过动态 4 位或 8 位量化,在单个服务器级 GPU 上运行;Llama 4 Maverick 提供 BF16 和 FP8 格式,方便在兼容硬件上高效部署。
>> 架构创新 (iRoPE) :为了支持长上下文,Llama 4 使用了交错注意力层 (interleaved attention layers) 和无位置嵌入 (NoPE) 层,以及在 RoPE 层中使用分块注意力 (chunked attention) 和注意力温度调整 (attention temperature tuning)。 在 RoPE 层中,每四个解码器层中就有一个 NoPE 层,而 RoPE 层则使用分块注意力,将上下文分成 8192 个块进行处理。注意力温度调整用于解决长序列中注意力概率分数衰减的问题。Llama Scout 还使用了 Query 和 Key 状态的 L2 正则化。

2、模型 评估

Llama 4 模型在各种基准测试上的评估结果,显示其性能显著优于 Llama 3.1 405B 等之前的模型,尤其是在推理、知识、编码、多语言和图像理解方面。 具体分数在文章中以表格形式列出,包括预训练模型和指令微调模型的评估结果。

Llama 4 Maverick & Scout 安装和使用方法

Hugging Face 提供了对 Llama 4 模型的无缝集成:
>> 模型权重 :Llama 4 Maverick 和 Llama 4 Scout 的模型权重可以直接在 Hugging Face Hub 上的 meta-llama 组织下访问,包括基础模型和指令微调版本。
>> Transformers 集成 :这两个模型已完全集成到 Transformers 库 (v4.51.0 或更高版本) 中,可以使用熟悉的 API 进行加载、推理和微调,包括对原生多模态能力的支持。 Transformers 还自动支持张量并行和自动设备映射。
>> Text Generation Inference (TGI) 支持 :TGI 提供了对 Llama 4 模型的优化和可扩展部署支持,方便集成到生产应用中。
>> 量化支持 :为 Scout 提供了动态 int4 量化代码,在最小化性能下降的同时,使其能够在较小的硬件上部署;Maverick 提供了 FP8 量化权重。
>> Xet 存储 :使用 Xet 存储后端,并支持社区微调模型的快速迭代。,提高了上传和下载速度。

1、安装

下载地址:https://huggingface.co/blog/llama4-release

2、使用方法

代码示例 (Llama 4 Maverick,使用张量并行):

需要在具有 8 个 GPU 的实例上运行此脚本,例如:torchrun --nproc-per-instance=8 script.py

python 复制代码
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

# ... (图像URL和问题定义) ...

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

Llama 4 Maverick & Scout 案例应用

Llama 4 模型的长上下文窗口可以用于:多文档摘要,解析大量的用户活动以进行个性化任务,对大型代码库进行推理,以及 Llama 4 Maverick 在图像和文本理解方面的卓越性能,使其能够用于构建跨越语言障碍的复杂 AI 应用,例如精确的图像理解和创意写作。

相关推荐
爱听歌的周童鞋7 小时前
GGML源码逐行调试(下)
llm·gpt-2·gguf·ggml
fleur8 小时前
小白学习langchain第二弹:连接mysql数据库实现对话的两种方式
langchain·llm
yu_xiaoxian9 小时前
深度学习理论-直观理解 Attention
人工智能·llm
utmhikari9 小时前
【日常随笔】基于MCP生态的LLM-Agent开发
llm·ai编程·mcp
穷人小水滴16 小时前
制造一只电子喵 (qwen2.5:0.5b 微调 LoRA 使用 llama-factory)
llm·aigc·ollama
jhonroxton17 小时前
使用golang快速构建你的MCP Server
llm·mcp
dony724717 小时前
大模型 json格式 修复
llm·json
仙人掌_lz18 小时前
企业年报问答RAG挑战赛冠军方案:从零到SotA,一战封神
python·gpt·ai·llm·rag·问答·年报
hojyn1 天前
RAG优化策略总结
llm