回顾-llama4[1]-->“ 一句话概括论文核心+技术亮点总结”

备注 :回顾看过的论文,对目前看过的llama系列进行整理在此总结(注:笔者水平有限,若有描述不当之处,欢迎大家留言。后期会继续更新LLM系列,文生图系列,VLM系列,agent系列等。如果看完有收获,可以【点赞】【收藏】【加粉】)

阐述的思维逻辑:会给出论文中的核心点和核心点的描述。

一句话总结: LLaMA 4 是 Meta AI 推出的首个原生多模态 MoE 架构模型系列,通过在统一骨干中早期融合 文本与视觉模态,并实现业界领先的千万级 Tokens 上下文,提供了卓越的多模态理解、超长上下文推理能力,并提供 LLaMA 4 Scout 和 LLaMA 4 Maverick 等配置选择。

技术亮点

1 原生多模态 MoE 架构与超大规模能力扩展: 模型首次采用 MoE(专家混合)架构 ,极大提升了效率,并以原生多模态(早期融合)设计,在统一骨干中联合预训练文本、图像、视频数据。同时,多语言训练覆盖 200 种语言(多语言 Tokens 数量是 LLaMA 3 的 10 倍),且上下文长度扩展至千万级 Tokens(Llama 4 Scout 支持 10M tokens),显著提升了模型的知识广度和长文本处理能力。

2 后训练【SFT + 多阶段 RL 对齐】: 在预训练之后,LLaMA 4 通过复杂的监督微调(SFT)和基于人类反馈的强化学习(RLHF)进行对齐优化。后训练重点关注多模态指令遵循、视觉问答、图像接地等任务,以确保模型在复杂的跨模态情境下的鲁棒性、准确性与安全性。

备注:后续为机器翻译

摘要

LLaMA 4 是 Meta AI 推出的最新一代基础模型,首次在 LLaMA 家族中原生集成了多模态智能 ,并引入了MoE(专家混合)架构 ,实现了计算效率和性能的飞跃。该系列模型在统一架构中实现了文本、图像、视频等模态的早期融合 处理,并将上下文窗口戏剧性地扩展至千万级别 Tokens(Llama 4 Scout 支持 10M tokens),提供了行业领先的多模态理解和超长上下文推理能力。

一 介绍

随着越来越多的人利用人工智能提升日常生活,确保领先的模型和系统开源至关重要,这样才能让每个人都能构建个性化体验的未来。今天,我们非常激动地宣布推出支持整个Llama生态系统的最先进的模型套件。我们隆重推出 Llama 4 Scout 和 Llama 4 Maverick,它们是首批开源的原生多模态模型,拥有前所未有的上下文长度支持,也是我们首个采用混合专家 (MoE) 架构构建的模型。此外,我们还将预览 Llama 4 Behemoth,它是世界上最智能的 LLM 之一,也是我们迄今为止功能最强大的模型,可作为我们新模型的导师。

这些 Llama 4 模型标志着 Llama 生态系统新时代的开始。我们在 Llama 4 系列中设计了两款高效模型:Llama 4 Scout 和 Llama 4 Maverick。Llama 4 Scout 拥有 170 亿个活跃参数和 16 位专家;Llama 4 Maverick 则拥有 170 亿个活跃参数和 128 位专家。前者可在单个 H100 GPU(采用 Int4 量化)上运行,后者可在单个 H100 主机上运行。此外,我们还训练了一个教师模型 Llama 4 Behemoth,其在 MATH-500 和 GPQA Diamond 等 STEM 基准测试中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。虽然 Llama 4 Behemoth 仍在训练中,尚未正式发布,但我们很高兴与大家分享更多关于我们方法的技术细节。

我们始终坚信,开放性能够推动创新,这对开发者、对 Meta 以及对整个世界都大有裨益。今天,我们将在llama.comHugging Face上提供 Llama 4 Scout 和 Llama 4 Maverick 的下载,以便大家都能继续使用我们的最新技术打造全新体验。未来几天,我们还将通过合作伙伴提供下载。此外,从今天起,您还可以在 WhatsApp、Messenger、Instagram Direct 和Meta.AI网站上体验搭载 Llama 4 的 Meta AI。

这仅仅是 Llama 4 系列的开端。我们相信,最智能的系统需要具备执行通用操作、与人类进行自然对话以及解决前所未见的挑战性问题的能力。赋予 Llama 在这些领域的强大功能,将为我们平台上的用户带来更优质的产品,并为开发者提供更多机会,让他们在下一代重要的消费者和商业应用场景中进行创新。我们正在持续研究和开发模型及产品原型,并将于 4 月 29 日在 LlamaCon 大会上分享更多关于我们愿景的信息------欢迎注册了解更多信息

无论您是基于我们模型进行开发的开发者,还是将它们集成到工作流程中的企业,亦或是仅仅对人工智能的潜在用途和优势感到好奇,Llama 4 Scout 和 Llama 4 Maverick 都是为您的产品添加下一代智能的最佳选择。今天,我们很高兴与您分享它们开发的四大主要部分,以及我们研发和设计过程中的一些见解。我们也迫不及待地想看到社区利用我们全新的 Llama 4 模型创造出令人惊叹的全新体验。

LLaMA 4 系列模型旨在推动开放式多模态智能的边界,并使开发者能够构建更具个性化和上下文感知能力的 AI 应用。该系列已发布 LLaMA 4 Scout(17B 激活参数,16 专家)和 LLaMA 4 Maverick(17B 激活参数,128 专家,总参数 400B)等版本,旨在在保持开放权重的哲学下,在多模态理解、推理和编码等多个评测基准上达到并超越顶级闭源模型的性能。

二 预训练

这些模型代表了 Llama 的最佳特性,以极具竞争力的价格提供多模态智能,同时性能超越了规模更大的模型。构建下一代 Llama 模型需要我们在预训练阶段采用多种新方法。

我们全新的 Llama 4 模型是首批采用专家混合(MoE)架构的模型。在 MoE 模型中,单个标记仅激活总参数的一小部分。MoE 架构在训练和推理方面具有更高的计算效率,并且在给定的训练 FLOPs 预算下,与密集模型相比,能够提供更高的模型质量。

作为示例,Llama 4 Maverick 模型拥有 170 亿激活参数和 4000 亿总参数。我们在推理中使用交替的密集层和专家混合(MoE)层以提高效率。MoE 层使用 128 个路由专家和一个共享专家。每个 token 都会被发送到共享专家,同时也会被发送到 128 个路由专家中的一个。因此,虽然所有参数都存储在内存中,但在服务这些模型时,仅激活总参数的一部分。这通过降低模型服务成本和延迟提高了推理效率------Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行以实现轻松部署,也可以通过分布式推理获得最高效率。

Llama 4 模型设计具有原生多模态能力,采用早期融合将文本和视觉 token 无缝集成到统一的模型骨干中。早期融合是一个重大进展,因为它使我们能够使用大量未标注的文本、图像和视频数据对模型进行联合预训练。我们还改进了 Llama 4 的视觉编码器。该编码器基于 MetaCLIP,但与冻结的 Llama 模型分开训练,以更好地使编码器适应大型语言模型(LLM)。

我们开发了一种称为 MetaP 的新训练技术,使我们能够可靠地设置关键模型超参数,例如每层学习率和初始化尺度。我们发现所选择的超参数在不同的批量大小、模型宽度、深度和训练 token 数量下都能很好地迁移。Llama 4 支持开源微调,通过在 200 种语言上进行预训练(其中超过 100 种语言的训练数据超过 10 亿 token,总体多语种 token 数量是 Llama 3 的 10 倍)实现。

此外,我们通过使用 FP8 精度实现高效模型训练,而不牺牲质量,并确保高模型 FLOPs 利用率------在使用 FP8 和 32K GPU 对 Llama 4 Behemoth 模型进行预训练时,我们实现了每 GPU 390 TFLOPs。训练的整体数据混合量超过 30 万亿 token,是 Llama 3 预训练混合量的两倍多,涵盖多样化的文本、图像和视频数据集。

我们在所谓的"中期训练"中继续训练模型,以通过新的训练方法改进核心能力,包括使用专门数据集进行长上下文扩展。这使我们能够提升模型质量,同时为 Llama 4 Scout 解锁行业领先的 1000 万输入上下文长度。

三 后训练

我们最新的模型提供了较小和较大的版本,以适应各种使用场景和开发者需求。Llama 4 Maverick 在图像和文本理解方面提供无与伦比的行业领先性能,使创建跨语言障碍的复杂 AI 应用成为可能。作为我们面向通用助手和聊天场景的产品主力模型,Llama 4 Maverick 在精确图像理解和创意写作方面表现出色。

在后训练 Llama 4 Maverick 模型时,最大的挑战是保持多输入模态、推理能力和对话能力之间的平衡。为了混合模态,我们设计了精心策划的课程策略,确保性能不逊于单一模态专家模型。在 Llama 4 中,我们改进了后训练流程,采用不同方法:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。一个关键经验是,SFT 和 DPO 可能过度约束模型,限制在线 RL 阶段的探索,从而在推理、编程和数学领域导致次优精度。为解决这一问题,我们使用 Llama 模型作为评判,从数据集中去掉超过 50% 被标记为简单的数据,并仅在剩余较难的数据集上进行轻量级 SFT。在随后的多模态在线 RL 阶段,通过精心选择较难的提示,我们实现了性能的显著提升。此外,我们实施了连续在线 RL 策略,在训练模型后使用它持续过滤并保留中等到困难难度的提示。这一策略在计算成本与精度之间的权衡上非常有效。随后,我们进行了轻量级 DPO 以处理模型响应质量的边缘情况,有效地实现了模型智能与对话能力的平衡。管道架构和带自适应数据过滤的连续在线 RL 策略最终促成了行业领先的通用聊天模型,具有最先进的智能水平和图像理解能力。

作为通用大型语言模型(LLM),Llama 4 Maverick 拥有 170 亿激活参数、128 个专家和 4000 亿总参数,在质量上优于 Llama 3.3 70B,且成本更低。Llama 4 Maverick 是同类最佳的多模态模型,在编程、推理、多语种、长上下文和图像基准测试中超越 GPT-4o 和 Gemini 2.0,并且在编程和推理能力上与更大规模的 DeepSeek v3.1 具有竞争力。

我们较小的模型 Llama 4 Scout 是一个通用模型,拥有 170 亿激活参数、16 个专家和 1090 亿总参数,在同类模型中提供最先进的性能。Llama 4 Scout 将支持的上下文长度从 Llama 3 的 128K 显著提升至行业领先的 1000 万 token。这开启了广泛的应用可能性,包括多文档摘要、解析大量用户活动以完成个性化任务,以及对庞大代码库进行推理。

Llama 4 Scout 在预训练和后训练阶段均使用 256K 上下文长度,这赋予基础模型高级的长度泛化能力。我们在诸如文本检索的"干草堆中的针"任务以及覆盖 1000 万 token 代码的累积负对数似然(NLL)任务中展示了令人信服的结果。Llama 4 架构的一项关键创新是使用无位置编码的交错注意力层。此外,我们在推理阶段采用注意力温度缩放以增强长度泛化能力。我们称之为 iRoPE 架构,其中"i"代表"交错"(interleaved)注意力层,强调长期目标是支持"无限"上下文长度,而"RoPE"指大多数层中使用的旋转位置编码(rotary position embeddings)。

我们对两款模型都进行了大量图像和视频帧静态画面的训练,以赋予它们广泛的视觉理解能力,包括对时间活动及相关图像的理解。这使得模型能够在文本提示的基础上轻松处理多图像输入,执行视觉推理和理解任务。模型在预训练阶段支持最多 48 张图像,并且我们在后训练阶段测试了最多八张图像,结果良好。

Llama 4 Scout 在图像定位任务中也是同类最佳,能够将用户提示与相关视觉概念对齐,并将模型响应锚定到图像中的特定区域。这使 LLM 能够更精确地进行视觉问答,更好地理解用户意图并定位感兴趣的对象。Llama 4 Scout 在编程、推理、长上下文和图像基准测试中也超越了可比模型,并且在性能上优于所有先前的 Llama 模型。这些新模型是推动未来人类连接的重要构建模块。秉承我们对开源的承诺,我们将 Llama 4 Maverick 和 Llama 4 Scout 提供下载,地址为 llama.com 和 Hugging Face,并将在最广泛使用的云和数据平台、边缘芯片以及全球服务集成商中陆续提供。

推动 Llama 模型的新规模:2T Behemoth

我们很高兴分享 Llama 4 Behemoth 的预览,这是一个教师模型,展示了其类别模型中的先进智能水平。Llama 4 Behemoth 也是一个多模态专家混合(MoE)模型,拥有 2880 亿激活参数、16 个专家和近两万亿总参数。在数学、多语言能力和图像基准测试中,为非推理模型提供最先进性能,它是教授较小 Llama 4 模型的理想选择。我们将 Llama 4 Maverick 从 Llama 4 Behemoth 作为教师模型共同蒸馏,显著提升了终端任务评估指标的质量。我们开发了一种新的蒸馏损失函数,在训练过程中动态加权软目标和硬目标。在预训练期间,从 Llama 4 Behemoth 进行的共同蒸馏将计算蒸馏目标所需的资源密集型前向传播的计算成本摊销到学生训练所用的大部分训练数据上。对于学生训练中引入的额外新数据,我们在 Behemoth 模型上运行前向传播以创建蒸馏目标。

对一个拥有两万亿参数的模型进行后训练也是一项重大挑战,需要我们彻底改造训练方法,从数据规模开始全面重建。为了最大化性能,我们不得不剪除 95% 的 SFT 数据,而较小模型为 50%,以实现对质量和效率的必要关注。我们还发现,轻量级 SFT 后进行大规模强化学习(RL)能显著提升模型的推理和编程能力。我们的 RL 方法侧重于通过 policy 模型进行 pass@k 分析采样困难提示,并制定提示难度递增的训练课程。我们还发现,在训练中动态过滤零优势提示,并构建包含多种能力混合提示的训练批次,对于提升数学、推理和编程性能至关重要。最后,从多种系统指令中采样对于确保模型保持推理和编程的指令遵循能力,并在多种任务中表现良好至关重要。

对两万亿参数模型扩展 RL 还要求我们重构底层 RL 基础设施,以应对其前所未有的规模。我们优化了 MoE 并行化设计以提升速度,从而加快迭代。我们开发了一个完全异步的在线 RL 训练框架,增强了灵活性。与现有的分布式训练框架相比,后者为了在内存中堆叠所有模型而牺牲计算内存,我们的新基础设施允许将不同模型灵活分配到独立 GPU 上,根据计算速度在多个模型间平衡资源。这一创新使训练效率相比前代提升约 10 倍。

四 保障措施和保护

我们的目标是在开发最有用、最实用模型的同时,防范和缓解最严重的风险。我们在 Llama 4 中采用了开发者使用指南:AI 保护中概述的最佳实践。这包括在模型开发的每一层整合缓解措施,从预训练到后训练,以及可调系统级缓解措施,以保护开发者免受对抗性用户影响。通过这些措施,我们赋能开发者为其 Llama 支持的应用创建有用、安全和可适应的体验。

4.1 预训练和后训练缓解措施

在预训练阶段,我们结合数据过滤和其他数据缓解措施以保障模型安全。在后训练阶段,我们应用多种技术以确保模型符合对用户和开发者有益的政策,包括在每个阶段使用适当的安全数据。

4.2 系统级方法

在系统级别,我们开源了若干保障工具,可帮助识别并防护潜在有害的输入和输出。这些工具可集成到 Llama 模型以及其他第三方工具中:

  • Llama Guard:基于我们与 MLCommons 共同开发的风险分类体系的大型语言模型输入/输出安全工具。开发者可使用它检测输入或输出是否违反其为特定应用制定的政策。

  • Prompt Guard:在大型攻击语料上训练的分类模型,能够检测明确恶意的提示(Jailbreak)以及包含注入输入的提示(Prompt Injection)。

  • CyberSecEval:帮助 AI 模型和产品开发者理解并降低生成式 AI 网络安全风险的评估工具。

我们听取了开发者的反馈,发现当工具可针对其应用进行定制时效果最佳。我们为开发者提供开放解决方案,使其可根据需求创建最安全、最有效的体验。我们还将继续与全球合作伙伴共同制定行业系统标准,造福开源社区。

4.3 评估与红队测试

我们以可控且可重复的方式,在广泛场景和用例中系统性测试模型。这些数据会反馈回后训练阶段。

我们通过自动和手动测试,使用对抗性动态探测对模型进行压力测试。在理解和评估潜在模型风险方面取得了进展。例如,我们开发了生成式进攻代理测试(GOAT)。通过 GOAT,我们解决了传统红队测试的局限性,模拟中等技能的对抗性行为的多轮交互,帮助扩大测试覆盖并更快发现漏洞。通过将自动化引入测试工具,GOAT 让专家红队人员能够专注于更新颖的对抗领域,而自动化则处理已知风险领域,从而提高了效率和效果,并帮助构建更完善的定量和定性风险图景。

4.4 解决 LLM 偏见问题

众所周知,所有领先 LLM 都存在偏见问题------尤其是在有争议的政治和社会话题上,历史上往往偏向左派。这是由互联网上可用的训练数据类型导致的。

我们的目标是消除 AI 模型的偏见,并确保 Llama 能理解并表达争议问题的双方观点。作为这项工作的部分,我们持续改进 Llama,使其能回答问题、对多种观点做出回应而不做评判,并且不偏向某些观点。

在本次发布中,我们在这些努力上取得了进展------Llama 4 的表现明显优于 Llama 3,并与 Grok 可比:

  • Llama 4 在有争议的政治和社会话题上总体拒绝回答的比例更低(从 Llama 3.3 的 7% 降至低于 2%)。

  • Llama 4 在拒绝回答的提示分布上更平衡(在一组有争议的话题问题上,不平等拒答比例降至低于 1%)。

测试显示,Llama 4 在有争议的政治或社会话题上以与 Grok 可比的比例表现出强烈政治倾向(且仅为 Llama 3.3 的一半)。虽然我们取得了进展,但仍需进一步努力,并将继续推动该比例进一步下降。我们为迄今取得的进展感到自豪,并承诺继续努力消除模型中的整体偏见。

参考文献

1 LLaMA 4: https://ai.meta.com/blog/llama-4-multimodal-intelligence/

相关推荐
tiger1193 小时前
如何进行高效的大模型推理?
人工智能·llm·大模型优化
Study9963 小时前
【电子书】大语言模型综述(391页)
人工智能·语言模型·自然语言处理·大模型·llm·gpt-3·大模型综述
组合缺一4 小时前
Solon AI 开发学习10 - chat - 工具调用概念介绍
java·人工智能·学习·ai·llm·solon
黑客思维者4 小时前
重塑信任与效率:Salesforce Einstein GPT 客服体系深度案例研究
人工智能·gpt·llm·客服系统·salesforce
亚里随笔4 小时前
DeepSeek-V3.2:开源大语言模型的新里程碑,在推理与智能体任务中突破性能边界
人工智能·语言模型·自然语言处理·llm·rlhf·agentic
mCell10 小时前
LLM 扫盲:什么是 Tokens?
chatgpt·llm·aigc
CoderJia程序员甲13 小时前
GitHub 热榜项目 - 日榜(2025-12-1)
ai·开源·llm·github·ai教程
EdisonZhou18 小时前
MAF快速入门(4)多Agent工作流编排
llm·aigc·agent·.net core
智泊AI21 小时前
AI大模型+数字人 | AI数字人直播带货竟然这么简单!
llm