深入了解Llama 4：Meta的新开源AI是怎样碾压GPT-4o和Gemini的

Meta最新开源模型在效率、规模和多模态理解上树立了新标杆

作者：Devansh

本纯技术博文很长，这里把作者的核心论点列出来，给不希望花太多时间来阅读长文的朋友快速获得关键技术知识。

Llama 4 是一个真正意义上的质变，远远超过之前所有 Llama 系列。以前 Llama 2/3 虽然重要，但感觉平庸（"important but profoundly uninspiring"），而 Llama 4 是革命性的，从多个技术维度都远超 GPT-4o、Gemini 2 Flash、Claude 3.7 等当代顶尖模型。

Meta 通过四个重大技术创新，使 Llama 4 重新定义了开放模型的标准：

（1）MoE架构（Mixture of Experts）正式成为主流，显著提升了效率与规模。Llama 4 Maverick 用 17B 活跃参数打爆了比它大得多的模型，成本/性能比同类最佳。

（2）原生多模态（Native Multimodality）设计（尤其是视觉），而非外挂式，深度融合语言与图像。这带来了跨模态理解力的质变，不是传统那种简单拼接。

（3）超长上下文处理能力（Ultra-Long Context with iRoPE），突破了1000万tokens。Scout模型通过交错RoPE+NoPE，配合推理时动态Attention Scaling，完成了超长文本处理。但作者强调："长上下文≠深度推理"，真正跨片段综合推理仍是未来挑战。

（4）精细化、分阶段后训练（SFT→Online RL→Lightweight DPO）策略，使模型在推理、编码、对话之间取得了完美平衡。特别是大规模异步强化学习（Async RL），是Behemoth这种2T模型训练可行的关键。

Meta成功通过工程手段和基础研究的结合，把开放源代码阵营的领导权重新从欧洲（Mistral）和中国（DeepSeek、Qwen）手中夺了回来。

虽然长上下文和强大多模态都很牛，但单次生成仍然无法取代RAG、多步推理等复杂应用需求。大模型推理的最大挑战仍是"如何跨步骤、跨片段深度整合"，这不是光靠扩展context就能解决的。

作者对于Meta这次的突破高度赞扬，认为Llama 4在很多细节上代表了"工程极致"和"前沿研究结合"的典范。

正文开始：

我就不废话开场了------Meta刚刚发布了Llama 4------带来了三个非常强大的模型变种------

Scout ------一个高效的多模态LLM，拥有1000万Token上下文窗口，可以在一块GPU上运行。吊打同量级的廉价模型。

Maverick ------一个更强大的模型（仍然相当高效），直接把"智能模型"如GPT-4.5、4o、Claude 3.7、DeepSeek R1、Gemini 2.0 Flash等踩在脚下。没有拿来跟2.5 Pro比，这也可以理解，毕竟2.5 Pro刚出。

Behemoth ------一个2万亿参数的模型，被称为同类最佳，不过因为还在训练中所以还没正式发布。这个被用来作为轻量版模型的老师。我们现在可以提前预览版模型，窥探一下未来能力。

我原本打算这个周六玩5-7小时帝国时代，再刷点Psycho Pass（这么神的番，真的），全泡汤了。谢谢你了，Zucky Chan。在这个版本发布、2.5 Pro发布、各种国产大模型发布、还有夜语（Nightwhisper）和Alpha Qasar这俩超级强模型的传言、推理能力的新突破、还有其他一大堆新东西的情况下，我真是无法想象未来几个月AI研究者们还能有啥休息的时间。这就是我现在看到的整个行业------

可以看看这部电影。简直是神作。

这篇文章里，我会根据发布声明和代码库来解析最重要的洞见，让你不用自己去啃原始资料。目标不是单纯总结发布内容，而是去读懂行间之意，看看这背后教会了我们什么关于下一代系统构建的趋势。

Llama 4 Maverick，一个拥有170亿激活参数、128个专家模块的模型，是当前同级别最好的多模态模型，吊打GPT-4o和Gemini 2.0 Flash，且在推理和编码任务上与新发布的DeepSeek v3打成平手------但激活参数只有人家一半不到。Llama 4 Maverick的性价比堪称同类最佳，实验版聊天模型在LMArena上打出了1417的ELO分数。

考虑到Llama 4的两个发布版本都极端高效，我觉得有必要再祭出我们最近这两个经典梗图------

还有这个老梗------

如果你想深入了解Llama 4的厉害之处，继续往下看。

执行摘要（这篇文章的TL;DR）

Llama 4有四个值得注意的发展：

专家混合架构（MoE）全面采用：

MoE是由多个"专家"子网络和一个"门控"网络组成的系统，动态地把输入分配给最合适的专家。这种条件计算方式让超大网络变得更高效------

由于MoE又强又高效，所以大家都预期未来的顶尖LLM（如GPT-4、Gemini及其后续版本）都会大规模用上它。

Meta用多个小的"专家"FFN（配合高性能的SwiGLU激活函数）加上一个路由器，替代了部分稠密FFN层。尤其是Maverick，使用了一种独特的"共享+路由"专家混合模式。后面我们详细拆解。

这是现代深度学习领域里确认MoE统治地位的又一大步（也让我们3月AI市场研究里对DeepEP的关注显得特别重要）。据我所知，Llama之前是唯一一个主流LLM不使用MoE的（这真挺惊讶的）。如果我是个AI基础设施投资人，现在就该开始找那些能让MoE更容易用的初创公司了，因为这明显预示着未来只会往这条路走。

原生多模态（视觉）：

相比"外挂"式视觉，原生多模态能带来更好的跨模态理解和基础建构。

Meta采用Early Fusion。用一个增强版的基于MetaCLIP的视觉编码器（特别为Llama训练的）生成视觉Token，这些视觉Token直接和文本Token一起送进同一个Transformer主干里，支持直接的跨模态注意力。依赖于在海量文本/图像/视频数据上的联合预训练。

超长上下文（Scout用的iRoPE）：

Scout用的是iRoPE，把标准RoPE注意力层和NoPE（无位置编码）层交替组合。同时引入了"推理时温度缩放"（根据位置动态调整注意力聚焦度）和超长序列（256K）训练。

长上下文当然很酷，但Needle in a Haystack（NIHAS，干草堆找针）这种评测其实不是专业应用中最重要的。

现实中，长上下文真正的挑战不是简单地在一堆数据中找一条信息，而是把很多片段的信息融合起来推理/建立联系而不把逻辑搞丢。这是个完全不同的难题，离真正解决还早。

Gemini的视频分析能力就是个例子。比如有一个比较简单、只有2分钟的格斗视频（节奏慢，只打击动作，没有地面缠斗，动作标准），理论上Gemini应该轻松搞定，但实际上，它经常会产生各种幻觉、漏掉关键瞬间、总体理解混乱。单独问它某个画面，它能回答；但让它自己连贯地综合分析一整个视频？彻底拉胯。

所以，提高最大上下文窗口并不能自动解决"跨片段综合推理"的问题。真正的长期目标是掌握这种深度融合推理，而不是单纯检索。

Llama 4 Scout的1000万Token上下文窗口确实技术上突破巨大，但还是要清楚区分访问范围扩大 和推理能力深化之间的不同。后者依然是下一代AI系统最关键也是最难啃的骨头。

先进的后训练流水线（SFT → RL → DPO）：

这个阶段更好地平衡了推理/编码能力和对话对齐，避免了传统SFT过重的问题。

• 轻量SFT，只针对难例子，狠砍简单数据。

• 集中在线RL，用动态课程和混合能力batch，专攻难题。

• 轻量DPO，最后做抛光处理/处理角落情况。为了Behemoth，还专门升级了异步RL框架，效率提升了10倍。

Llama也积极拥抱量化（FP8、INT4），用像FBGEMM这种优化库，让高性能推理可行。

深度部分，我们将探讨以下趋势------

趋势1：专家混合架构------Llama 4的效率飞跃
趋势2：原生多模态------把视觉真正内建进来
趋势3：超长上下文------推开序列长度极限
趋势4：先进后训练------优化推理与对齐

最后总结一下，还有点美国精神自嗨时间。

趋势1：Llama终于用上了专家混合架构

我们的新Llama 4模型，是首次采用Mixture of Experts（MoE）架构的版本。在MoE模型中，每个Token只激活总参数的一小部分。MoE在训练和推理中计算更高效，且在固定训练FLOPs预算下，能带来比稠密模型更高的质量。

比如，Llama 4 Maverick模型有170亿激活参数，总参数4000亿。我们用交替的稠密层和MoE层来提高推理效率。MoE层里有128个路由专家+1个共享专家。每个Token都会送到共享专家和一个特定路由专家处理。因此虽然所有参数都存储在内存里，但每次推理只有一小部分被激活，大幅降低了推理成本和延迟------

Llama 4 Maverick可以在单台NVIDIA H100 DGX主机上运行，也可以用分布式推理来最大化效率。

1. 稠密模型的问题与MoE介绍

传统深度学习模型是"稠密"的。每次处理信息时，输入都会流经每一层的每一个参数。当模型很小时没问题，但当模型膨胀到像Llama 4 Behemoth这种2000亿级参数时，就太夸张了，处理每个输入都极其耗费计算资源。

MoE提供了更聪明的稀疏替代方案。不是单一的大处理单元（比如Transformer里的FFN），而是------

这就是Llama 4版的MoE。我们会专门讲讲Shared Expert这个有趣的设计。

通常来说，一个MoE层包含：

• 多个"专家"：一堆小型、专门处理不同任务的小网络。

• 一个"路由器"：一个小巧高效的决策器。它负责快速看每个输入（比如文本或图像的一部分Token），然后决定最适合处理它的是哪个专家。

• 选择性处理：根据路由器的选择，数据只送给被选中的专家处理，其他专家这次就休息了，从而保证高效。

• 汇总洞见：把激活的专家的输出结果组合在一起，形成最终的输出。

路由机制（选择哪个专家）以及如何合并输出，这两点背后都有不少讲究。比如，你可以选择硬路由 （Hard MoE，路由器做出明确选择，把每个Token只送到一两个专家）或者软路由（Soft MoE，所有专家都有一定概率被部分激活，根据学习到的权重混合输出）。围绕这些路由策略，其实可以展开一整套学习内容，但在这里我们先不展开。只是提前打个预防针：要是你以后想认真搞MoE架构，这块必须深入了解。

在稀疏MoE层（左图）里，路由器学着把每个输入Token单独分配到不同专家上；而在软MoE层（右图）里，每个输出槽位是所有输入Token的加权平均。

学会做离散分配（硬选专家）会带来一些优化和实现上的问题，而软MoE则绕过了这些麻烦。

无论怎么选，MoE都能达到同样的效果：

模型总参数量很大（代表潜在知识存量），但每次实际推理时，只激活其中一小部分，从而大幅减少计算量，让超大模型变得实际可用。

而且MoE跟蒸馏（Distillation）和压缩（Compression）也特别搭，这对那些要在全球数十亿用户、数万亿次交互中部署GenAI应用的公司来说，是个超级加分项。

有了这个基础介绍，咱们可以深入看看Llama 4是怎么特别实现推理的------

Llama 4是怎么实现MoE的：细节一览

交错层设计（Interleaved Layers）： MoE层不是到处都用，它们替换了标准Transformer里的一部分FFN块，大概是隔一层放一个。这种混合搭配有助于性能和稳定性的平衡。

（在model.py文件里的TransformerBlock类__init__方法里可以看到）

专家模块设计（Expert Design）： 每个专家不仅仅是个简单的小网络，而是用上了SwiGLU（Sigmoid-Weighted Linear Unit）这种更高级的激活函数------延续自之前的Llama版本。

• SwiGLU干了什么：普通激活函数是对输入W1(x)做一次变换。而SwiGLU是两条路并行走：一条W1(x)经过SiLU激活，另一条W3(x)学习一个门控（Gate），即动态决定让多少激活后的信号通过。

• 这两条路径相乘，让网络能非常灵活地控制信息流，比单一路径简单粗暴激活强多了。最后再通过一个W2映射回需要的维度。

• 为什么重要：SwiGLU让每个专家能做更复杂、更细腻的计算，大大提升了MoE层整体的质量。

路由器怎么选专家（The Router - Making the Choice）：

• 工作机制：路由器是一个线性层（Linear Layer，叫self.router_DE）。就是个神经网络里最基本的操作，输入加权求和。在这里，它接收每个Token的表示，给每个专家算一个得分，相当于预测每个专家处理这个Token的合适程度，这个预测能力是在训练过程中学出来的。

• 选择专家：然后模型用torch.topk操作，从中选得分最高的专家。

Maverick模型用的是混合专家模式（Hybrid Expert Model）。 这个设计细节很值得讲一下：

• 共享专家（Shared Expert）： Maverick包含一个标准的FFN块（self.shared_expert），所有Token都会经过它。

• 路由专家（Routed Experts）： 除了共享专家之外，每个Token还会被送到路由器挑选出来的一个专家（大概top-k=1）。

这里是刚才那张示意图的放大版，专门聚焦讲这个做法：

我没看到官方解释为什么要这么做，但可以推测：这种设计可能是想兼顾"跨领域协作"（共享专家可以跨领域关联信息）和"专门处理"（路由专家针对特定任务更专业）。

它相当于把软MoE的一些优点也带进来了（共享专家就像混合专家），但又确保专门的专家有最强发声权。

合并输出（Scatter Add）：

怎么把共享专家（处理了所有Token）和路由专家（只处理了特定原始位置的一些Token）的输出合并起来？

简单地直接加是没法正确处理的。

这时候，就需要用到scatter_add了。

下面是这个过程的一个概览------

要讲得更详细点的话，事情是这么运作的------

scatter_add_操作：

这个专门的操作，会把路由专家计算出来的输出，聪明地加回到包含了共享专家输出的主Tensor里，但只加到正确的位置上。

它用router_indices（这个记录了每个原始Token被分配给了哪个专家）来确保专家X的输出只被加到它处理的那个Token对应的位置。

这里面的精确度简直像神枪狙击一样。

下面给出一个片段（来自moe.py）------

首先，所有Token的输出是通过shared_expert计算出来的，并且存储在out_aD里。

然后，稀疏激活的路由专家们的输出被单独计算出来（叫routed_out_egg_D）。

关键的操作就是scatter_add_，它把路由专家的输出精准地加回到out_aD这个Tensor里。

这里用到了router_indices（经过reshape成router_indices_EG_D），

用来把每个路由专家的输出准确地映射回它原本对应的Token位置，确保合并得正确无误。

最后，这个结果可能还会在模型并行组（model parallel groups）内部做一次规约（reduce），

然后以预期的序列形状返回。

这种做法，把稀疏计算的结果重新聚合回了稠密的序列表示里，而且没有把不同Token的输出搞混。

我能想象，这一切在追踪和负载均衡上肯定难度爆表，

但从结果来看，确实值得他们这么折腾一番。

毕竟，在Mistral、DeepSeek、Qwen这些模型已经丢下挑战书后，

尤其又赶在Q1结束之前，Meta必须拿出点大东西来。

而他们，真的交出了答卷。

好啦，让我们继续进入下一节。

又是一个关于AI系统未来发展的巨大提示。

深入了解Llama 4的原生多模态

多模态现在可能已经不再让人感到太惊奇了，因为大家都在往这方向转。不过，让L4这个版本值得仔细研究的地方在于它的做法：Llama 4是原生多模态。咱们先花点时间来搞清楚这个概念，以及它带来的意义。

原生 vs 外挂多模态

过去，给强大的语言模型加上视觉能力，通常用的是"外挂式"的做法。

一般是拿一个很厉害的文本AI，再配上一个单独的图像理解AI。图像模型会分析图片，然后把总结或者数值表示（embedding）传给文本模型。文本模型只能基于这个"二手信息"进行推理，从来没有真正"见过"这张图片。

到现在，音频和视频领域也还是常用这种方法，因为音频和视频的embedding模型还没那么成熟。

虽然能用，但这种方法其实就像------你通过看OneFootball赛后报道、刷YouTube解说来追比赛------细节总是在翻译转述中丢失。

数据和分析可能告诉你，曼联是个跨时代的灾难现场，但只有亲眼看他们踢球，

你才能真正欣赏到，他们是如何把自我毁灭打磨成一门艺术的。

顺带一提，虽然有点跑题------

既然我们救世主Antony最近终于刷出了一些邪门的数据，

我们就得问一个很重要的问题：

曼联，是一直那么烂？
还是说，西甲，真的太简单了？

期待大家的见解。

回到AI正题。让我们搞清楚原生多模态到底是怎么回事。顺便提一句，这跟Gemini采用的是一模一样的核心原理，也是为什么Gemini能在多模态领域吊打其他模型。其他LLM（比如4o）都是看了Gemini变态级别的多模态效果后，才开始跟风抄的。所以，非常值得认真研究。

Llama 4的内建视觉能力

Llama 4模型从设计之初就是原生多模态的，采用了Early Fusion（早期融合）技术，把文本Token和视觉Token无缝整合到同一个统一的模型主干里。Early Fusion是一个巨大的进步，因为它让我们可以用大量的未标注文本、图像和视频数据来联合预训练模型。我们也对Llama 4里的视觉编码器进行了升级。这个视觉编码器基于MetaCLIP，但是在配合一个冻结的Llama模型单独训练出来的，目的是让编码器更好地适配大语言模型（LLM）。

它处理图像的能力不是后面外挂上的；而是从一开始就编织进了模型架构的核心里。

这种"原生"方式，是通过一个叫Early Fusion的技术实现的。

具体怎么做呢：

并行处理（Parallel Processing）：
当你同时给Llama 4输入文本和图片时，它能同步处理。
文本部分会被分解成熟悉的Token，和往常一样通过分词器（tokenizer）。
Llama 4的"眼睛"：
图像会被送进一个复杂的视觉编码器。Meta并不是随便拿个现成组件来用，
而是用了一个基于MetaCLIP、但经过增强的视觉编码器。
关键是，这个视觉编码器是专门在和一个冻结的Llama语言模型配合下训练的。
这样可以确保视觉信息被翻译成一种------"视觉Token"的序列------
让模型里的语言部分能够直接理解和融合。
融合信息流（Merging Streams）：
文本Token的序列和视觉Token的序列，随后会合并成一个统一的信息流。
其中可能会用一些特殊的标记Token，来指示图像信息在流中开始和结束的位置。
统一推理（Unified Reasoning）：
这个融合后的信息流，会被送进Llama 4的Transformer主干里------
同样强大的注意力机制（attention mechanisms）和MoE专家层（Mixture of Experts layers），会同时处理文本Token和视觉Token。

要实现这一点，需要真正的重量级技术，一种能养活无数代人的技术。

跨模态注意力简介

我们在各种图像和视频帧静态图上训练了我们的两个模型，目的是让它们拥有广泛的视觉理解能力，包括对时间动态活动以及相关图像的认知。这让模型可以在处理多张图片输入时，轻松结合文本提示，进行视觉推理和理解任务。这些模型在预训练阶段最多用了48张图像，在后训练测试中，我们试过输入多达8张图，效果也很不错。

------顺带提一句，使用视频帧静态图，可能可以捕捉到一些"动态"场景，而不是死板的静态照片，这会进一步拓展模型的多模态覆盖范围。

早期融合（Early Fusion）的魔力，就在注意力机制（Attention Mechanism）内部发生。因为文本Token和视觉Token是并排处理的，模型可以直接学习它们之间的联系。比如，当提示词里出现"滑板"这个词时，它可以直接"关注"到图像中对应滑板的视觉Token。反过来，一个突出的视觉特征，也可以影响模型对配套文本的理解。这种跨模态注意力Cross-Modal Attention），让模型的基础对齐能力（grounding）和推理能力，远远超过了那种把文本和图像分开处理的老旧做法。

这种集成式架构，是通过Llama 4的**联合预训练（Joint Pre-Training）**驱动的。它是从零开始，一起学习语言和视觉的关联的，训练用的是超大规模的数据集（是30万亿Token混合数据集的一部分），里面包含了海量的文本、图像，甚至还有视频。它不是先学文、再学视觉，而是一开始就同时学习像素和文字之间的联系的。

总的来说，这一切跟前面讲MoE那部分，是一个路数。我们选择了更难的技术路线，就是为了把性能真正压榨到极限。我觉得，Llama 4既是一项工程上的巨大成就，也是一项研究上的重大突破，甚至说，它更像是工程胜利的结晶。

接下来------是整个文章里最吸引眼球的部分了。

Llama 4在超长上下文上的飞跃

如果你在看我的文章，那你大概率已经不需要我再讲一遍什么是Context Window（上下文窗口）或者为什么它很重要了。所以咱们直接跳过铺垫，来看看Meta到底是怎么把长上下文性能搞定的。首先得从这里说起------

瓶颈：为什么长上下文这么难搞

在标准Transformer模型里，处理长序列会遇到一堆大难题：

计算开销（Computational Cost）： 核心的自注意力机制（Self-Attention），每个Token都要跟其他所有Token互相"看一眼"，计算量是跟序列长度N的平方增长的（O(N²)）。当Token数上百万时，这种增长会很快把计算资源拖垮。
位置感知（Positional Awareness）： Transformer天生是不懂词序的，它必须靠明确的位置编码来补充顺序信息。但简单的位置编码方法，在极长距离上会失效，抓不准相对位置关系。
内存占用（Memory Usage）： Attention机制需要存储之前所有Token的中间Key和Value状态（也就是KV缓存）。这个缓存随着上下文长度线性增长，会消耗掉海量的GPU显存。
信息衰减（Information Decay）： 模型在很长输入的中段，往往会忘记或者无法有效利用关键信息，这个现象叫做"Lost in the Middle"（中间迷失）。

要解决这些问题，并且真正把长上下文规模推上去，就必须依靠一种非常特殊的技术------

语言模型是怎么知道Token位置的------旋转位置编码（RoPE）

要理解Llama 4的突破，咱们首先得弄懂，像Llama这样的模型一般是怎么处理位置的。

从第一代开始，Llama系列模型就不是简单地给每个Token的Embedding加上一个固定的位置数值（绝对位置编码），而是用了旋转位置编码（RoPE）。

RoPE要解决的问题： 我们需要一种编码方式，让模型不仅知道一个Token在整体序列中的位置（比如是第5个还是第500个），更重要的是，它能理解这个Token相对于其他Token的位置关系（比如第500个Token是在第490个Token之后的第10个位置）。这种相对位置感知，对于理解句法结构和依赖关系非常关键。而且，我们希望这种编码还能泛化到比训练时更长的序列长度上。
RoPE的优雅思路： RoPE通过在注意力机制内部，旋转Token的Embedding向量来编码位置信息。它不是简单地叠加位置信息，而是直接根据Token的绝对位置，
修改Attention机制中用到的Query（Q）和Key（K）向量。
它是怎么运作的（概念上）： 想象一下，每个Token的Embedding向量，在某种程度上被划分成了成对的维度。RoPE把每一对维度看作一个二维平面上的坐标（就像一个复数）。根据Token的绝对位置m，RoPE对这些坐标应用一个旋转。旋转的角度取决于位置m和具体的维度对，不同的维度对会以不同的频率theta_k进行旋转。从数学上看，这相当于每个坐标对乘上一个e^(i * m * theta_k)。

相对位置的魔法： 当模型计算位置m的Query和位置n的Key之间的注意力得分时，点积（dot product）计算自然地简化成，最终的注意力得分只依赖于它们的相对差异（m-n）和内容Embedding，而不是分别依赖于m和n的绝对位置。旋转操作实际上把绝对位置对得分计算的影响给抵消掉了。

好处： 这种做法优雅地编码了相对位置，在实际效果上表现也很好，而且比一些绝对位置编码或其他相对编码方法有更好的外推能力（也就是能泛化到更长的序列）。之前的Llama模型，成功地用RoPE支撑到了最长128K Token的上下文（比如Llama 3.1 405B版本）。

这也为Scout模型的突破打下了基础。

Llama 4 Scout的大飞跃：交错RoPE（iRoPE）突破1000万Token

虽然标准RoPE已经很厉害了，但要做到1000万Token这种级别，还得拿出点特别的东西。Meta引入了iRoPE（Interleaved RoPE），作为Scout超大上下文窗口的核心技术。

iRoPE的做法不是在每一层Attention里都一板一眼地用RoPE，而是------交替使用：

有些层继续使用标准的RoPE，大概是为了保持对局部Token顺序和相对位置的精细理解，这正是RoPE最擅长的。
其他一些层则在Attention计算中使用NoPE（No Positional Encoding），也就是完全不加任何位置编码。

为什么要把RoPE层和NoPE层混着用？ Meta没有公布详细原理，但知识匮乏从来不会阻止我自信地胡乱猜测：

RoPE层： 负责专注在精确的局部上下文、句法结构、短距离相对排序。
NoPE层： 更适合聚合语义信息，或者捕捉长距离依赖，因为在这种超长距离里，
主题关联可能比精确的相对位置更重要。而且，完全不加位置编码，可能还能避免在超大距离下，位置信号带来的噪声或者复杂性，纯靠内容相关性来建立注意力。

这是他们给出的说法，挺有意思的。确实是个挺有趣的主张，但说实话，我懂得还不够多，没法和人认真辩论这个。

交错使用RoPE和NoPE，可以让模型同时利用到------RoPE提供的精准局部顺序理解，以及NoPE带来的宽泛语义聚合，有可能打造出一个更鲁棒、更高效的超长序列表示方式。

那我有没有什么硬证据支持这些说法？说真的------没有。但是记住啊，小朋友们，千万别让什么"科学的谦虚"或者"追求真相"这种蠢东西，挡在真正重要的事情面前------比如，装得自己很聪明，刷到更多小饼干积分（brownie points）。如果让我给任何一个想成功的人提一条建议，那一定是------成功最快的方法，就是念出魔法咒语："Just Trust Me Bro"。

虽然 iRoPE 很酷，但就像爆豪需要切岛才能成为最闪亮的小伙子一样，要实现超长上下文，还得靠一群重要的配角------

支撑超长上下文的辅助技术

实现 1000 万 tokens 不只是靠 iRoPE，这是一个团队合作的结果：

有针对性的训练：Llama 4 Scout 明确是为了处理超长序列而训练的。它经历了预训练和后训练两个阶段，期间使用了最长达 256,000 tokens 的上下文。这种大规模的训练对模型来说至关重要，能让它学会有效利用自身架构优势，并能够推广到更长的输入上。这让我很想到 AlphaGeometry，用超长的证明步骤让 AI 的思考能力更上一层楼。

在生成的合成证明中，有 9% 使用了辅助构造。而在合成训练证明中，只有大约 0.05% 的证明长度超过了 AlphaGeometry 在测试集问题上的平均证明长度。最复杂的一条合成证明长度达到了惊人的 247 步，且用了两个辅助构造。大多数合成定理的前提条件不像人类发现的定理那样具有对称性，因为它们在生成时并不会偏向任何审美标准。

动态注意力缩放：Meta 提到了在推理时对注意力进行"温度缩放"。根据我的理解，它会根据序列中的位置动态调整 Query 向量的幅度。对于回溯得更远的 Query，会稍微多放大一些（基于一个对数函数）。这对处理超长序列（比如 Scout 的 1000 万 tokens）非常有帮助。标准的注意力机制在面对极长序列时容易出现"注意力衰减"，而这种缩放机制能抵消这种衰减，本质上是在"锐化"由 Query 向量计算得到的注意力分数。这使得 NoPE 层，即使缺乏直接的位置信息，也能在极大范围内有效地优先关注重要的信息。

优化过的内核：底层的计算必须依赖极高效的注意力实现（比如 FlashAttention 的变种）来应对内存和计算需求。再一次要注意的是量化的重要性。这也是为什么我在最佳早期创业公司名单中，把 Clika（一家做模型压缩的初创公司）评得很高。因为，把这件事做好，能赚很多钱------

长上下文的意义

这让很多人非常兴奋，甚至有人预测 RAG 以及其他相关技术将会"死亡"。

不过，虽然这是一次突破性的进展，真正使用 1000 万 tokens 的上下文可不是一件简单的事。KV 缓存的内存需求依然很高，而且推理时间也会随着输入长度自然增加。此外，长上下文扩展还面临其他挑战------比如透明性、测试、如何做出有意义的改进等等，这些问题在部署上都会严重拖慢潜力的释放。这无疑会打开很多新的大门，但也值得记住：无论模型多强大，单次生成（one-shot generation）相比多轮生成（multi-generation）一直有着明显的劣势，是有原因的。我们将在另一篇文章里更详细地讲这个问题。

目前，我想再次强调：在超长上下文中工作的性质，与"在大海捞针测试（needle in a haystack）"中所测量的内容，实际上是非常不同的。

不过，不要因此小看了这项能力。这无疑是一个巨大的成就，我已经迫不及待想看到它在此基础上的进一步改进了。

继续往下讲，我们来说说后训练阶段（因为整体训练流程其实还是比较直接的）。

Llama 4 是如何进行后训练的

对一个拥有两万亿参数的模型进行后训练，本身就是一个巨大的挑战。这迫使我们不得不从数据规模开始，彻底推翻并重构整个训练方案。为了最大化性能，我们不得不对 SFT（监督微调）数据进行高达 95% 的筛减（相比之下，小型模型只需要筛减约 50%），以达到在质量和效率上的必要聚焦。我们还发现，先进行轻量级 SFT，然后再进行大规模强化学习（RL），能让模型的推理和编码能力获得更显著的提升。我们的 RL 方案聚焦于通过 policy 模型进行 pass@k 分析来采样高难度提示词（prompt），并据此制定一个提示难度逐步上升的训练课程体系。我们也发现，在训练过程中动态过滤掉"优势为零"的提示词，并通过混合多种能力来源的提示词来构建训练批次，这对提升模型在数学、推理和编码任务上的表现非常关键。最后，从多种系统指令中进行采样，对确保模型保持推理与编码任务中的指令跟随能力，以及在各种任务上有良好表现，也起到了决定性作用。

预训练赋予大型语言模型海量的知识，但真正把这种原始潜力转化为有用、安全且对齐的 AI 助手，依然依赖于后训练阶段。对于 Llama 4 系列，Meta 不仅仅是简单地放大了预训练规模，而是在后训练流程上进行了大幅革新，采用了一系列先进的技术，专门针对推理能力、对话能力的提升，以及确保模型在复杂情况下的负责任行为，尤其是像 Llama 4 Behemoth 这样拥有数万亿参数的超级大模型。

超越传统微调：一套新的训练方案

Meta 认识到，传统的后训练方法，尤其是重度的 SFT，往往会在强化学习（RL）阶段无意中抑制模型的探索潜力，导致在如编码、数学等高要求领域表现不佳。为了解决这个问题，Llama 4 采用了一套精细设计的三阶段流程：

轻量且聚焦质量的 SFT：初始的指令跟随阶段使用了高度筛减的数据集。Meta 通过移除 50%（Maverick 版本）到 95%（Behemoth 版本）被模型打分为"简单"的样本，只保留具有挑战性和高信号的数据，确保 SFT 阶段真正专注于困难任务。这种做法可以保留模型的核心推理能力，避免在进入探索性的 RL 阶段之前，因过度拟合简单对话模式而丧失潜力。如果你有注意的话，Meta 其实这几年一直在反复强调并实践这种方法------

高强度在线强化学习（RL）

这是 Llama 4 后训练中的核心精修阶段。Llama 4 的 RL 阶段高度聚焦于提升模型在困难提示（prompt）上的表现，这些困难提示通过在编码、数学和推理任务中进行 pass@k 分析等方法筛选出来。关键的创新点包括：

持续的在线学习：通过一个迭代循环来实现，模型在困难提示上进行训练后，会生成新的数据；再从中筛选出中等到高难度的数据，进而动态构建出一个持续进化的学习课程体系。

**重要术语说明-**在线强化学习（Online RL）指的是智能体主动与环境实时交互，以收集数据并学习策略。而离线强化学习（Offline RL）则是在预先收集好的数据集上进行训练，不需要与环境实时交互，适用于那些直接交互受限或代价高昂的场景。这一点非常重要，因为这篇论文实际上在积极强调它们在离线 RL 上取得的性能表现。

目标化筛选：主动移除那些模型已经表现良好（"零提升"）的提示词，把算力集中在真正需要改进的领域上。
混合能力批次：每个训练批次混合了针对不同技能（编码、推理、对话）的提示词，确保模型能力均衡发展。
多样化指令：使用各种不同风格的系统提示，保持模型对指令灵活响应的基本能力。

轻量级直接偏好优化（DPO） ：作为最后一环，轻量应用DPO来进行最终打磨。主要用于调整特定风格偏好、响应格式，或处理与安全相关的小众情况，而不会限制前面通过强化学习发展出的复杂能力。

将强化学习扩展到万亿参数规模

要把这种高级强化学习策略应用到巨大的 Llama 4 巨兽上，Meta 必须在基础设施上进行重大创新。他们开发了一个完全异步的在线强化学习训练框架。这个系统将策略模型和奖励模型等组件解耦，根据计算需求灵活分配 GPU 资源，突破了传统同步分布式训练的限制。结合对 Mixture of Experts (MoE) 架构的并行优化，这套体系使训练效率提升了约 10 倍，从而让大规模复杂强化学习在最前沿规模上成为可能。

与之前发布的 Llama 系列不同（老实说，我个人觉得以前的 Llama 虽然重要，但实在提不起兴趣------所以我们也从来没报道过），Llama 4 是一款真正向前推进 LLM 边界的崭新模型。扎克伯格和 Meta 的各路人马这次真的是爆发了"秃鹰精神"，硬是把开源王冠从欧洲人和中国人手里夺了回来。这是一件具有重大历史意义的事情。我现在要去吃个芝士汉堡庆祝一下。

该你们出招了，红色阵营。

感谢你看到这里，祝你有美好的一天，

记得保持优雅，别像 United 的后防线那么拉胯。