
【新智元导读】原生多模态 Llama 4 终于问世,开源王座一夜易主!首批共有两款模型 Scout 和 Maverick,前者业界首款支持 1000 万上下文单 H100 可跑,后者更是一举击败了 DeepSeek V3。目前,2 万亿参数巨兽还在训练中。
一大早,Llama 4 重磅发布了!

Meta 官宣开源首个原生多模态 Llama 4,首次采用 MoE 架构,支持 12 种语言,首批发布一共两款:
Llama 4 Scout:共有 1090 亿参数,17B 活跃参数,16 个专家,1000 万上下文
Llama 4 Maverick:共有 4000 亿参数,17B 活跃参数,128 个专家,100 万上下文
另外,2 万亿参数 Llama 4 Behemoth 将在未来几个月面世,288B 活跃参数,16 个专家。

Llama 4 的横空出世,成为迄今为止开源最强,多模态能力最好的模型之一。

在大模型 LMSYS 排行榜上,Llama 4 Maverick 冲上第二( ELO 得分 1417),仅次于闭源 Gemini 2.5 Pro。
更值得一提的是,仅用一半参数,Maverick 推理编码能力与 DeepSeek-v3-0324 实力相当。
Llama 4 Scout 最大亮点在于支持 1000 万上下文,相当于可以处理 20 + 小时的视频,仅在单个 H100 GPU(Int4 量化后)上就能跑。
在基准测试中,性能超越 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

即将面世的 Llama 4 Behemoth(仍在训练中),是 Maverick 协同蒸馏的教师模型,使用 30T 多模态 token 在 32K 个 GPU 上进行预训练(FP8)。
目前在 STEM 基准测试中,超越了 GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。

小扎激动地在官宣视频中称,「今天是 Llama 4 日」!
Llama 4 开源后,DeepSeek R2 还远吗?

此前报道称,DeepSeek R2 最晚在 5 发布,看来可能要提前了...
史上最强 Llama 4 开源,超越 DeepSeek V3
Llama 4 模型开源,标志着 Llama 生态系统进入了一个新纪元。

即日起,所有开发者可以在 llama.com 和 Hugging Face 下载这两款最新的模型
在大模型排行榜中,Llama 4 Maverick 在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。
仅在样式控制下,排名第五。

而且,1000 万上下文 Llama 4 Scout 还击败了 OpenAI 的模型。

每个人还可以在 WhatsApp、Messenger、Instagram Direct 和网页上体验基于 Llama 4 的应用。

首次采用 MoE,单个 H100 即可跑
Llama 团队设计了两款高效的 Llama 4 系列模型,只要单个 H100 GPU 就能运行:
一个是 Llama 4 Scout(拥有 170 亿个活跃参数和 16 个专家),使用 Int4 量化 可以在单个 H100 GPU 上运行;
另一个是 Llama 4 Maverick(拥有 170 亿个活跃参数和 128 个专家),可以在单个 H100 主机上运行。
目前,正在训练的教师模型------Llama 4 Behemoth,它在 STEM 基准测试(如 MATH-500 和 GPQA Diamond)中,性能优于 GPT-4.5、Claude Sonnet 3.7、Gemini 2.0 Pro。
在最新博文中,Meta 分享了更多的关于 Llama 4 家族训练的技术细节。

在英伟达 B200 上,Llama 4 可以每秒处理 42400 个 token
预训练
Llama 4 模型是 Llama 系列模型中首批采用混合专家(MoE)架构的模型。
在 MoE 模型中,单独的 token 只会激活全部参数中的一小部分。
与传统的稠密模型相比,MoE 架构在训练和推理时的计算效率更高,并且在相同的训练 FLOPs 预算下,能够生成更高质量的结果。

架构概览,右为混合专家(MoE)架构
举个例子,Llama 4 Maverick 模型的 4000 亿个总参数中有 170 亿个活跃参数。
为了提高推理效率,Meta 交替使用了稠密层和专家混合(MoE)层。
MoE 层用到了 128 个路由专家和一个共享专家。每个 token 都会被送到共享专家,同时也会送到 128 个路由专家中的一个。
因此,虽然所有参数都存储在内存中,但在运行这些模型时,只有部分参数会被激活。
这样就能提升推理效率,降低模型服务的成本和延迟------
Llama 4 Maverick 可以轻松部署在一台 NVIDIA H100 DGX 主机上运行,或者通过分布式推理来实现最高效率。
原生多模态设计
Llama 4 是一个原生多模态模型,采用了早期融合技术,能把文本和视觉 token 无缝整合到一个统一的模型框架里。
早期融合是个大进步,因为它可以用海量的无标签文本、图片和视频数据一起来预训练模型。
Meta 还升级了 Llama 4 的视觉编码器。这个编码器基于 MetaCLIP,但在训练时跟一个冻结的 Llama 模型分开进行,这样能更好地调整编码器,让它更好地适配大语言模型(LLM)。
模型****超参数优化
Meta 还开发了一种叫做 MetaP 的新训练方法,能让他们更靠谱地设置关键的模型超参数,比如每层的学习率和初始化规模。
这些精心挑选的超参数在不同的批大小、模型宽度、深度和训练 token 量上都能很好地适配。
Llama 4 通过在 200 种语言上预训练实现了对开源微调的支持,其中超过 10 亿个 token 的语言有 100 多种,整体多语言 token 量比 Llama 3 多出 10 倍。
高效的模型训练,解锁 1000 万****输入上下文长度
此外,Meta 注重高效的模型训练,采用了 FP8 精度,既不牺牲质量,又能保证模型的高 FLOPs 利用率------
在使用 FP8 精度和 32K 个 GPU 预训练 Llama 4 Behemoth 模型时,达到了每个 GPU 390 TFLOPs 的性能。
训练用的整体数据包含了超过 30 万亿个 token,比 Llama 3 的预训练数据量翻了一倍还多,涵盖了文本、图片和视频数据集。
Meta 用一种叫做「中期训练」的方式来继续训练模型,通过新的训练方法,包括用专门的数据集扩展长上下文,来提升核心能力。
这不仅提高了模型的质量,还为 Llama 4 Scout 解锁了领先的 1000 万输入上下文长度。
后训练
最新的模型包含了不同的参数规模,满足各种使用场景和开发者的需求。
-
Llama 4 Maverick:参数规模较大,主要用于图像理解和创意写作
-
Llama 4 Scout:参数规模较小,适用多种任务,支持 1000 万 token 上下文,全球领先。
为了让不同模型适应不同的任务,针对多模态、超大参数规模等问题,Meta 开发了一系列新的后训练方法。
主力模型 Llama 4 Maverick
作为产品的核心模型,Llama 4 Maverick 在图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。
训练 Llama 4 Maverick 模型时,最大的挑战是保持多种输入模式、推理能力和对话能力之间的平衡。
后训练流程
为了训练 Llama 4,Meta 重新设计了后训练流程,采用了全新的方法:
轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。
一个关键发现是,SFT 和 DPO 可能会过度限制模型,在在线 RL 阶段限制了探索,导致推理、编程和数学领域的准确性不理想。
为了解决这个问题,Meta 使用 Llama 模型作为评判者,移除了超过 50% 的被标记为「简单」的数据,并对剩余的更难数据进行轻量级 SFT。
在随后的多模态在线 RL 阶段,精心选择了更难的提示,成功实现了性能的飞跃。
此外,他们还实施了持续在线 RL 策略,交替进行模型训练和数据筛选,只保留中等到高难度的提示。这种策略在计算成本和准确性之间取得了很好的平衡。
最后,进行了轻量级的 DPO 来处理与模型响应质量相关的特殊情况,有效地在模型的智能性和对话能力之间达成了良好的平衡。
新的流程架构加上持续在线 RL 和自适应数据过滤,最终打造出了一个行业领先的通用聊天模型,拥有顶尖的智能和图像理解能力。
Llama 4 Maverick 碾压 GPT-4o 和 Gemini 2.0
作为一款通用的 LLM,Llama 4 Maverick 包含 170 亿个活跃参数,128 个专家和 4000 亿个总参数,提供了比 Llama 3.3 70B 更高质量、更低价格的选择。
Llama 4 Maverick 是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如 GPT-4o 和 Gemini 2.0,甚至能与体量更大的 DeepSeek v3.1 在编码和推理上竞争。

通用模型 Llama 4 Scout:1000 万 token 上下文
规模较小的 Llama 4 Scout 是一款通用模型,拥有 170 亿个活跃参数、16 个专家和 1090 亿个总参数,在同类别中性能最好。
Llama 4 Scout 的支持上下文长度从 Llama 3 的 12.8 万激增到行业领先的 1000 万 token。

这为多种应用打开了无限可能,包括多文档摘要、大规模用户活动解析以进行个性化任务,以及在庞大的代码库中进行推理。
Llama 4 Scout 在预训练和后训练时都采用了 256K 的上下文长度,基础模型具备了先进的长度泛化能力。
它在一些任务中取得了亮眼成果,比如文本检索中的「大海捞针式检索」和在 1000 万 token 代码上的累积负对数似然(NLLs)。


Llama 4 架构的一个关键创新是使用了交替注意力层,而不依赖于位置嵌入。
此外,在推理时采用了温度缩放注意力,以增强长度泛化能力。Meta 将其称为 iRoPE 架构,其中「i」代表「交替」(interleaved)注意力层,突出了支持「无限」上下文长度的长期目标,而「RoPE」则指的是在大多数层中使用的旋转位置嵌入(Rotary Position Embeddings)。
视觉理解能力
两款模型进行了大规模的图像和视频帧静态图像训练,以赋予它们广泛的视觉理解能力,包括对时间活动和相关图像的理解。
它们能够在多图像输入和文本提示的配合下,轻松进行视觉推理和理解任务。
模型预训练时最多用了 48 张图像,而在后训练测试中,最多 8 张图像也能取得不错的效果。
Llama 4 Scout 在图像定位方面也是同类最佳,能够将用户的提示与相关的视觉概念对齐,并将模型的响应锚定到图像中的特定区域。
这使得更精确 的视觉问答成为可能,帮助 LLM 更好地理解用户意图并定位感兴趣的对象。
编程、推理、长上下文和图像上,遥遥领先
Llama 4 Scout 在编程、推理、长上下文和图像基准测试中超过了类似的模型,并且在所有以前的 Llama 模型中表现更强。

秉承对开源的承诺,Meta 将 Llama 4 Maverick 和 Llama 4 Scout 提供给用户下载,用户可以在 llama.com 和 Hugging Face 上获取,之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。
2 万亿巨兽,干掉 GPT-4.5
Llama 4 Behemoth 是一款「教师模型」,在同级别的模型里,它的智能水平相当高超。
Llama 4 Behemoth 同样是一个多模态混合专家模型 ,拥有 2880 亿个活跃参数、16 个专家以及近 2 万亿个总参数。
在数学、多语言处理和图像基准测试方面,它为非推理模型提供了最先进的性能,成为训练较小的 Llama 4 模型的理想选择。
教师模型 + 全新蒸馏
从 Llama 4 Behemoth 中蒸馏出来 Llama 4 Maverick,在最终任务评估指标上大幅提升了质量。
Meta 开发了一种新的蒸馏损失函数,在训练过程中动态地加权软目标和硬目标。
通过从 Llama 4 Behemoth 进行共同蒸馏,能够在预训练阶段分摊计算资源密集型前向计算的成本,这些前向计算用于计算大多数用于学生模型训练的数据的蒸馏目标。
对于学生训练中包含的额外新数据,会在 Behemoth 模型上运行前向计算,以生成蒸馏目标。

后训练
对一个拥有两万亿参数的模型进行后训练也是一个巨大的挑战,这必须彻底改进和重新设计训练方案,尤其是在数据规模方面。
为了最大化性能,不得不精简 95% 的 SFT 数据,相比之下,较小的模型只精简了 50% 的数据,目的是确保在质量和效率上的集中关注。
Meta 还发现,采用轻量级的 SFT 后接大规模 RL 能够显著提高模型的推理和编码能力。Meta 的 RL 方案专注于通过对策略模型进行 pass@k 分析来采样难度较大的提示,并设计逐渐增加提示难度的训练课程。
在训练过程中动态地过滤掉没有优势的提示,并通过从多个能力中混合提示构建训练批次,对提升数学、推理和编码的性能起到了关键作用。
最后,从多种系统指令中采样对于确保模型保持良好的指令跟随能力,在推理和编码任务中表现出色也至关重要。
扩展 RL 训练
对于两万亿参数的模型,扩展 RL 训练也要求重新设计底层的 RL 基础设施,应对前所未有的规模。
Meta 优化了 MoE 并行化的设计,提高了速度,从而加快了迭代速度。
Llama 团队开发了一个完全异步的在线 RL 训练框架,提升了灵活性。
与现有的分布式训练框架相比,后者为了将所有模型都加载到内存中而牺牲了计算内存,新基础设施能够灵活地将不同的模型分配到不同的 GPU 上,根据计算速度在多个模型之间平衡资源。
这一创新使得训练效率比之前的版本提升了约 10 倍。
Llama 4 一夜成为开源王者,甚至就连 DeepSeek V3 最新版也被拉下神坛,接下来就是坐等 R2 的诞生。
参考资料: