LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略

目录

相关文章

[LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读](#LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读)

[LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略](#LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略)

[Llama 4 Maverick & Scout的简介](#Llama 4 Maverick & Scout的简介)

[1、Llama 4 Maverick & Scout 特点](#1、Llama 4 Maverick & Scout 特点)

2、模型评估

[Llama 4 Maverick & Scout的安装和使用方法](#Llama 4 Maverick & Scout的安装和使用方法)

1、安装

2、使用方法

[Llama 4 Maverick & Scout的案例应用](#Llama 4 Maverick & Scout的案例应用)


相关文章

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解读

LLMs之Llama 4:《The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation》翻译与解-CSDN博客

LLMs之Llama:Llama 4 ( Llama 4 Maverick & Scout )的简介、安装和使用方法、案例应用之详细攻略

LLMs之Llama:Llama 4(Llama 4 Maverick & Scout)的简介、安装和使用方法、案例应用之详细攻略-CSDN博客

Llama 4 Maverick & Scout 简介

2025年4月5日,Llama 4 是 Meta 开发的新一代自回归混合专家 (MoE) 架构大型语言模型。该系列包含两个主要模型:

>> Llama 4 Maverick:拥有约 4000 亿个参数(其中 170 亿为活跃参数),包含 128 个专家。

>> Llama 4 Scout:拥有约 1090 亿个参数(其中 170 亿为活跃参数),包含 16 个专家。

这两个模型都采用了早期融合 (early fusion) 技术,能够原生处理文本和图像输入。它们都基于超过 40 万亿个 token 的数据进行训练,涵盖 200 多种语言(其中 12 种语言,包括阿拉伯语、西班牙语、德语和印地语,有专门的微调支持)。

Llama 4 Maverick 和 Llama 4 Scout 是 Meta 推出的强大且高效的多模态大型语言模型,它们在上下文长度、多模态处理和性能方面取得了显著的进步。这两个模型的发布,将极大地促进多模态 AI 的发展和应用。

HuggingFace地址https://huggingface.co/blog/llama4-release

1、 Llama 4 Maverick & Scout 特点

>> 混合专家 (MoE) 架构: 采用 MoE 架构,单个 token 只激活一部分参数,提高了训练和推理效率。
>> 原生多模态 :能够原生处理文本和图像输入,这得益于早期融合技术。
>> 长上下文窗口: Llama 4 Scout 的上下文窗口长度达到惊人的 1000 万 token;Llama 4 Maverick 的上下文窗口长度为 100 万 token。
>> 高效部署: Llama 4 Scout 经过设计,可以通过动态 4 位或 8 位量化,在单个服务器级 GPU 上运行;Llama 4 Maverick 提供 BF16 和 FP8 格式,方便在兼容硬件上高效部署。
>> 架构创新 (iRoPE) :为了支持长上下文,Llama 4 使用了交错注意力层 (interleaved attention layers) 和无位置嵌入 (NoPE) 层,以及在 RoPE 层中使用分块注意力 (chunked attention) 和注意力温度调整 (attention temperature tuning)。 在 RoPE 层中,每四个解码器层中就有一个 NoPE 层,而 RoPE 层则使用分块注意力,将上下文分成 8192 个块进行处理。注意力温度调整用于解决长序列中注意力概率分数衰减的问题。Llama Scout 还使用了 Query 和 Key 状态的 L2 正则化。

2、模型 评估

Llama 4 模型在各种基准测试上的评估结果,显示其性能显著优于 Llama 3.1 405B 等之前的模型,尤其是在推理、知识、编码、多语言和图像理解方面。 具体分数在文章中以表格形式列出,包括预训练模型和指令微调模型的评估结果。

Llama 4 Maverick & Scout 安装和使用方法

Hugging Face 提供了对 Llama 4 模型的无缝集成:
>> 模型权重 :Llama 4 Maverick 和 Llama 4 Scout 的模型权重可以直接在 Hugging Face Hub 上的 meta-llama 组织下访问,包括基础模型和指令微调版本。
>> Transformers 集成 :这两个模型已完全集成到 Transformers 库 (v4.51.0 或更高版本) 中,可以使用熟悉的 API 进行加载、推理和微调,包括对原生多模态能力的支持。 Transformers 还自动支持张量并行和自动设备映射。
>> Text Generation Inference (TGI) 支持 :TGI 提供了对 Llama 4 模型的优化和可扩展部署支持,方便集成到生产应用中。
>> 量化支持 :为 Scout 提供了动态 int4 量化代码,在最小化性能下降的同时,使其能够在较小的硬件上部署;Maverick 提供了 FP8 量化权重。
>> Xet 存储 :使用 Xet 存储后端,并支持社区微调模型的快速迭代。,提高了上传和下载速度。

1、安装

下载地址:https://huggingface.co/blog/llama4-release

2、使用方法

代码示例 (Llama 4 Maverick,使用张量并行):

需要在具有 8 个 GPU 的实例上运行此脚本,例如:torchrun --nproc-per-instance=8 script.py

python 复制代码
from transformers import AutoProcessor, Llama4ForConditionalGeneration
import torch

model_id = "meta-llama/Llama-4-Maverick-17B-128E-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = Llama4ForConditionalGeneration.from_pretrained(
    model_id,
    attn_implementation="flex_attention",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

# ... (图像URL和问题定义) ...

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=256)

response = processor.batch_decode(outputs[:, inputs["input_ids"].shape[-1]:])[0]
print(response)
print(outputs[0])

Llama 4 Maverick & Scout 案例应用

Llama 4 模型的长上下文窗口可以用于:多文档摘要,解析大量的用户活动以进行个性化任务,对大型代码库进行推理,以及 Llama 4 Maverick 在图像和文本理解方面的卓越性能,使其能够用于构建跨越语言障碍的复杂 AI 应用,例如精确的图像理解和创意写作。

相关推荐
Alfred king5 小时前
华为昇腾910B通过vllm部署InternVL3-8B教程
llm·nlp·vllm部署
CoderJia程序员甲15 小时前
AI驱动的Kubernetes管理:kubectl-ai 如何简化你的云原生运维
运维·人工智能·云原生·kubernetes·llm
董厂长19 小时前
LLM :Function Call、MCP协议与A2A协议
网络·人工智能·深度学习·llm
tangjunjun-owen1 天前
第三章:langchain加载word文档构建RAG检索教程(基于FAISS库为例)
langchain·llm·word·faiss·rag
yutianzuijin2 天前
大模型推理--从零搭建大模型推理服务器:硬件选购、Ubuntu双系统安装与环境配置
服务器·ubuntu·llm·大模型推理
CoderJia程序员甲2 天前
RAG_Techniques:探索GitHub热门RAG技术开源项目
ai·llm·github·ai教程·rag技术
水煮蛋不加蛋3 天前
从 Pretrain 到 Fine-tuning:大模型迁移学习的核心原理剖析
人工智能·机器学习·ai·大模型·llm·微调·迁移学习
AI大模型顾潇3 天前
[特殊字符] 人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) [特殊字符]
数据库·人工智能·语言模型·自然语言处理·大模型·llm·prompt
火云牌神4 天前
本地大模型编程实战(32)用websocket显示大模型的流式输出
python·websocket·llm·fastapi·流式输出
John1591514 天前
#Paper Reading# DeepSeek-R1
gpt·llm·nlp·deepseek