深入了解Llama 4:Meta的新开源AI是怎样碾压GPT-4o和Gemini的

Meta最新开源模型在效率、规模和多模态理解上树立了新标杆

作者:Devansh

本纯技术博文很长,这里把作者的核心论点列出来,给不希望花太多时间来阅读长文的朋友快速获得关键技术知识。

Llama 4 是一个真正意义上的质变,远远超过之前所有 Llama 系列。以前 Llama 2/3 虽然重要,但感觉平庸("important but profoundly uninspiring"),而 Llama 4 是革命性的,从多个技术维度都远超 GPT-4o、Gemini 2 Flash、Claude 3.7 等当代顶尖模型。

Meta 通过四个重大技术创新,使 Llama 4 重新定义了开放模型的标准:

(1)MoE架构(Mixture of Experts)正式成为主流,显著提升了效率与规模。Llama 4 Maverick 用 17B 活跃参数打爆了比它大得多的模型,成本/性能比同类最佳。

(2)原生多模态(Native Multimodality)设计(尤其是视觉),而非外挂式,深度融合语言与图像。这带来了跨模态理解力的质变,不是传统那种简单拼接。

(3)超长上下文处理能力(Ultra-Long Context with iRoPE),突破了1000万tokens。Scout模型通过交错RoPE+NoPE,配合推理时动态Attention Scaling,完成了超长文本处理。但作者强调:"长上下文≠深度推理",真正跨片段综合推理仍是未来挑战。

(4)精细化、分阶段后训练(SFT→Online RL→Lightweight DPO)策略,使模型在推理、编码、对话之间取得了完美平衡。特别是大规模异步强化学习(Async RL),是Behemoth这种2T模型训练可行的关键。

Meta成功通过工程手段和基础研究的结合,把开放源代码阵营的领导权重新从欧洲(Mistral)和中国(DeepSeek、Qwen)手中夺了回来。

虽然长上下文和强大多模态都很牛,但单次生成仍然无法取代RAG、多步推理等复杂应用需求。大模型推理的最大挑战仍是"如何跨步骤、跨片段深度整合",这不是光靠扩展context就能解决的。

作者对于Meta这次的突破高度赞扬,认为Llama 4在很多细节上代表了"工程极致"和"前沿研究结合"的典范。

正文开始:

我就不废话开场了------Meta刚刚发布了Llama 4------带来了三个非常强大的模型变种------

  1. Scout ------一个高效的多模态LLM,拥有1000万Token上下文窗口,可以在一块GPU上运行。吊打同量级的廉价模型。

  • Maverick ------一个更强大的模型(仍然相当高效),直接把"智能模型"如GPT-4.5、4o、Claude 3.7、DeepSeek R1、Gemini 2.0 Flash等踩在脚下。没有拿来跟2.5 Pro比,这也可以理解,毕竟2.5 Pro刚出。

  • Behemoth ------一个2万亿参数的模型,被称为同类最佳,不过因为还在训练中所以还没正式发布。这个被用来作为轻量版模型的老师。我们现在可以提前预览版模型,窥探一下未来能力。

我原本打算这个周六玩5-7小时帝国时代,再刷点Psycho Pass(这么神的番,真的),全泡汤了。谢谢你了,Zucky Chan。在这个版本发布、2.5 Pro发布、各种国产大模型发布、还有夜语(Nightwhisper)和Alpha Qasar这俩超级强模型的传言、推理能力的新突破、还有其他一大堆新东西的情况下,我真是无法想象未来几个月AI研究者们还能有啥休息的时间。这就是我现在看到的整个行业------

可以看看这部电影。简直是神作。

这篇文章里,我会根据发布声明和代码库来解析最重要的洞见,让你不用自己去啃原始资料。目标不是单纯总结发布内容,而是去读懂行间之意,看看这背后教会了我们什么关于下一代系统构建的趋势。

Llama 4 Maverick,一个拥有170亿激活参数、128个专家模块的模型,是当前同级别最好的多模态模型,吊打GPT-4o和Gemini 2.0 Flash,且在推理和编码任务上与新发布的DeepSeek v3打成平手------但激活参数只有人家一半不到。Llama 4 Maverick的性价比堪称同类最佳,实验版聊天模型在LMArena上打出了1417的ELO分数。

考虑到Llama 4的两个发布版本都极端高效,我觉得有必要再祭出我们最近这两个经典梗图------

还有这个老梗------

如果你想深入了解Llama 4的厉害之处,继续往下看。

执行摘要(这篇文章的TL;DR)

Llama 4有四个值得注意的发展:

专家混合架构(MoE)全面采用:

MoE是由多个"专家"子网络和一个"门控"网络组成的系统,动态地把输入分配给最合适的专家。这种条件计算方式让超大网络变得更高效------

由于MoE又强又高效,所以大家都预期未来的顶尖LLM(如GPT-4、Gemini及其后续版本)都会大规模用上它。

Meta用多个小的"专家"FFN(配合高性能的SwiGLU激活函数)加上一个路由器,替代了部分稠密FFN层。尤其是Maverick,使用了一种独特的"共享+路由"专家混合模式。后面我们详细拆解。

这是现代深度学习领域里确认MoE统治地位的又一大步(也让我们3月AI市场研究里对DeepEP的关注显得特别重要)。据我所知,Llama之前是唯一一个主流LLM不使用MoE的(这真挺惊讶的)。如果我是个AI基础设施投资人,现在就该开始找那些能让MoE更容易用的初创公司了,因为这明显预示着未来只会往这条路走。

原生多模态(视觉):

相比"外挂"式视觉,原生多模态能带来更好的跨模态理解和基础建构。

Meta采用Early Fusion。用一个增强版的基于MetaCLIP的视觉编码器(特别为Llama训练的)生成视觉Token,这些视觉Token直接和文本Token一起送进同一个Transformer主干里,支持直接的跨模态注意力。依赖于在海量文本/图像/视频数据上的联合预训练。

超长上下文(Scout用的iRoPE):

Scout用的是iRoPE,把标准RoPE注意力层和NoPE(无位置编码)层交替组合。同时引入了"推理时温度缩放"(根据位置动态调整注意力聚焦度)和超长序列(256K)训练。

长上下文当然很酷,但Needle in a Haystack(NIHAS,干草堆找针)这种评测其实不是专业应用中最重要的。

现实中,长上下文真正的挑战不是简单地在一堆数据中找一条信息,而是把很多片段的信息融合起来推理/建立联系而不把逻辑搞丢。这是个完全不同的难题,离真正解决还早。

Gemini的视频分析能力就是个例子。比如有一个比较简单、只有2分钟的格斗视频(节奏慢,只打击动作,没有地面缠斗,动作标准),理论上Gemini应该轻松搞定,但实际上,它经常会产生各种幻觉、漏掉关键瞬间、总体理解混乱。单独问它某个画面,它能回答;但让它自己连贯地综合分析一整个视频?彻底拉胯。

所以,提高最大上下文窗口并不能自动解决"跨片段综合推理"的问题。真正的长期目标是掌握这种深度融合推理,而不是单纯检索。

Llama 4 Scout的1000万Token上下文窗口确实技术上突破巨大,但还是要清楚区分访问范围扩大推理能力深化之间的不同。后者依然是下一代AI系统最关键也是最难啃的骨头。

先进的后训练流水线(SFT → RL → DPO):

这个阶段更好地平衡了推理/编码能力和对话对齐,避免了传统SFT过重的问题。

• 轻量SFT,只针对难例子,狠砍简单数据。

• 集中在线RL,用动态课程和混合能力batch,专攻难题。

• 轻量DPO,最后做抛光处理/处理角落情况。为了Behemoth,还专门升级了异步RL框架,效率提升了10倍。

Llama也积极拥抱量化(FP8、INT4),用像FBGEMM这种优化库,让高性能推理可行。

深度部分,我们将探讨以下趋势------

  • 趋势1:专家混合架构------Llama 4的效率飞跃
  • 趋势2:原生多模态------把视觉真正内建进来
  • 趋势3:超长上下文------推开序列长度极限
  • 趋势4:先进后训练------优化推理与对齐

最后总结一下,还有点美国精神自嗨时间。

趋势1:Llama终于用上了专家混合架构

我们的新Llama 4模型,是首次采用Mixture of Experts(MoE)架构的版本。在MoE模型中,每个Token只激活总参数的一小部分。MoE在训练和推理中计算更高效,且在固定训练FLOPs预算下,能带来比稠密模型更高的质量。

比如,Llama 4 Maverick模型有170亿激活参数,总参数4000亿。我们用交替的稠密层和MoE层来提高推理效率。MoE层里有128个路由专家+1个共享专家。每个Token都会送到共享专家和一个特定路由专家处理。因此虽然所有参数都存储在内存里,但每次推理只有一小部分被激活,大幅降低了推理成本和延迟------

Llama 4 Maverick可以在单台NVIDIA H100 DGX主机上运行,也可以用分布式推理来最大化效率。

1. 稠密模型的问题与MoE介绍

传统深度学习模型是"稠密"的。每次处理信息时,输入都会流经每一层的每一个参数。当模型很小时没问题,但当模型膨胀到像Llama 4 Behemoth这种2000亿级参数时,就太夸张了,处理每个输入都极其耗费计算资源。

MoE提供了更聪明的稀疏替代方案。不是单一的大处理单元(比如Transformer里的FFN),而是------

这就是Llama 4版的MoE。我们会专门讲讲Shared Expert这个有趣的设计。

通常来说,一个MoE层包含:

• 多个"专家":一堆小型、专门处理不同任务的小网络。

• 一个"路由器":一个小巧高效的决策器。它负责快速看每个输入(比如文本或图像的一部分Token),然后决定最适合处理它的是哪个专家。

• 选择性处理:根据路由器的选择,数据只送给被选中的专家处理,其他专家这次就休息了,从而保证高效。

• 汇总洞见:把激活的专家的输出结果组合在一起,形成最终的输出。

路由机制(选择哪个专家)以及如何合并输出,这两点背后都有不少讲究。比如,你可以选择硬路由 (Hard MoE,路由器做出明确选择,把每个Token只送到一两个专家)或者软路由(Soft MoE,所有专家都有一定概率被部分激活,根据学习到的权重混合输出)。围绕这些路由策略,其实可以展开一整套学习内容,但在这里我们先不展开。只是提前打个预防针:要是你以后想认真搞MoE架构,这块必须深入了解。

在稀疏MoE层(左图)里,路由器学着把每个输入Token单独分配到不同专家上;而在软MoE层(右图)里,每个输出槽位是所有输入Token的加权平均。

学会做离散分配(硬选专家)会带来一些优化和实现上的问题,而软MoE则绕过了这些麻烦。

无论怎么选,MoE都能达到同样的效果:

模型总参数量很大(代表潜在知识存量),但每次实际推理时,只激活其中一小部分,从而大幅减少计算量,让超大模型变得实际可用。

而且MoE跟蒸馏(Distillation)和压缩(Compression)也特别搭,这对那些要在全球数十亿用户、数万亿次交互中部署GenAI应用的公司来说,是个超级加分项。

有了这个基础介绍,咱们可以深入看看Llama 4是怎么特别实现推理的------

Llama 4是怎么实现MoE的:细节一览

交错层设计(Interleaved Layers): MoE层不是到处都用,它们替换了标准Transformer里的一部分FFN块,大概是隔一层放一个。这种混合搭配有助于性能和稳定性的平衡。

(在model.py文件里的TransformerBlock类__init__方法里可以看到)

专家模块设计(Expert Design): 每个专家不仅仅是个简单的小网络,而是用上了SwiGLU(Sigmoid-Weighted Linear Unit)这种更高级的激活函数------延续自之前的Llama版本。

• SwiGLU干了什么:普通激活函数是对输入W1(x)做一次变换。而SwiGLU是两条路并行走:一条W1(x)经过SiLU激活,另一条W3(x)学习一个门控(Gate),即动态决定让多少激活后的信号通过。

• 这两条路径相乘,让网络能非常灵活地控制信息流,比单一路径简单粗暴激活强多了。最后再通过一个W2映射回需要的维度。

• 为什么重要:SwiGLU让每个专家能做更复杂、更细腻的计算,大大提升了MoE层整体的质量。

路由器怎么选专家(The Router - Making the Choice):

• 工作机制:路由器是一个线性层(Linear Layer,叫self.router_DE)。就是个神经网络里最基本的操作,输入加权求和。在这里,它接收每个Token的表示,给每个专家算一个得分,相当于预测每个专家处理这个Token的合适程度,这个预测能力是在训练过程中学出来的。

• 选择专家:然后模型用torch.topk操作,从中选得分最高的专家。

Maverick模型用的是混合专家模式(Hybrid Expert Model)。 这个设计细节很值得讲一下:

共享专家(Shared Expert): Maverick包含一个标准的FFN块(self.shared_expert),所有Token都会经过它。

路由专家(Routed Experts): 除了共享专家之外,每个Token还会被送到路由器挑选出来的一个专家(大概top-k=1)。

这里是刚才那张示意图的放大版,专门聚焦讲这个做法:

我没看到官方解释为什么要这么做,但可以推测:这种设计可能是想兼顾"跨领域协作"(共享专家可以跨领域关联信息)和"专门处理"(路由专家针对特定任务更专业)。

它相当于把软MoE的一些优点也带进来了(共享专家就像混合专家),但又确保专门的专家有最强发声权。

合并输出(Scatter Add):

怎么把共享专家(处理了所有Token)和路由专家(只处理了特定原始位置的一些Token)的输出合并起来?

简单地直接加是没法正确处理的。

这时候,就需要用到scatter_add了。

下面是这个过程的一个概览------

要讲得更详细点的话,事情是这么运作的------

scatter_add_操作:

这个专门的操作,会把路由专家计算出来的输出,聪明地加回到包含了共享专家输出的主Tensor里,但只加到正确的位置上。

它用router_indices(这个记录了每个原始Token被分配给了哪个专家)来确保专家X的输出只被加到它处理的那个Token对应的位置。

这里面的精确度简直像神枪狙击一样。

下面给出一个片段(来自moe.py)------

首先,所有Token的输出是通过shared_expert计算出来的,并且存储在out_aD里。

然后,稀疏激活的路由专家们的输出被单独计算出来(叫routed_out_egg_D)。

关键的操作就是scatter_add_,它把路由专家的输出精准地加回到out_aD这个Tensor里。

这里用到了router_indices(经过reshape成router_indices_EG_D),

用来把每个路由专家的输出准确地映射回它原本对应的Token位置,确保合并得正确无误。

最后,这个结果可能还会在模型并行组(model parallel groups)内部做一次规约(reduce),

然后以预期的序列形状返回。

这种做法,把稀疏计算的结果重新聚合回了稠密的序列表示里,而且没有把不同Token的输出搞混。

我能想象,这一切在追踪和负载均衡上肯定难度爆表,

但从结果来看,确实值得他们这么折腾一番。

毕竟,在Mistral、DeepSeek、Qwen这些模型已经丢下挑战书后,

尤其又赶在Q1结束之前,Meta必须拿出点大东西来。

而他们,真的交出了答卷。

好啦,让我们继续进入下一节。

又是一个关于AI系统未来发展的巨大提示。

深入了解Llama 4的原生多模态

多模态现在可能已经不再让人感到太惊奇了,因为大家都在往这方向转。不过,让L4这个版本值得仔细研究的地方在于它的做法:Llama 4是原生多模态。咱们先花点时间来搞清楚这个概念,以及它带来的意义。

原生 vs 外挂多模态

过去,给强大的语言模型加上视觉能力,通常用的是"外挂式"的做法。

一般是拿一个很厉害的文本AI,再配上一个单独的图像理解AI。图像模型会分析图片,然后把总结或者数值表示(embedding)传给文本模型。文本模型只能基于这个"二手信息"进行推理,从来没有真正"见过"这张图片。

到现在,音频和视频领域也还是常用这种方法,因为音频和视频的embedding模型还没那么成熟。

虽然能用,但这种方法其实就像------你通过看OneFootball赛后报道、刷YouTube解说来追比赛------细节总是在翻译转述中丢失。

数据和分析可能告诉你,曼联是个跨时代的灾难现场,但只有亲眼看他们踢球,

你才能真正欣赏到,他们是如何把自我毁灭打磨成一门艺术的。

顺带一提,虽然有点跑题------

既然我们救世主Antony最近终于刷出了一些邪门的数据,

我们就得问一个很重要的问题:

  1. 曼联,是一直那么烂?
  2. 还是说,西甲,真的太简单了?

期待大家的见解。

回到AI正题。让我们搞清楚原生多模态到底是怎么回事。顺便提一句,这跟Gemini采用的是一模一样的核心原理,也是为什么Gemini能在多模态领域吊打其他模型。其他LLM(比如4o)都是看了Gemini变态级别的多模态效果后,才开始跟风抄的。所以,非常值得认真研究。

Llama 4的内建视觉能力

Llama 4模型从设计之初就是原生多模态的,采用了Early Fusion(早期融合)技术,把文本Token和视觉Token无缝整合到同一个统一的模型主干里。Early Fusion是一个巨大的进步,因为它让我们可以用大量的未标注文本、图像和视频数据来联合预训练模型。我们也对Llama 4里的视觉编码器进行了升级。这个视觉编码器基于MetaCLIP,但是在配合一个冻结的Llama模型单独训练出来的,目的是让编码器更好地适配大语言模型(LLM)。

它处理图像的能力不是后面外挂上的;而是从一开始就编织进了模型架构的核心里。

这种"原生"方式,是通过一个叫Early Fusion的技术实现的。

具体怎么做呢:

  1. 并行处理(Parallel Processing):
    当你同时给Llama 4输入文本和图片时,它能同步处理。
    文本部分会被分解成熟悉的Token,和往常一样通过分词器(tokenizer)。
  2. Llama 4的"眼睛":
    图像会被送进一个复杂的视觉编码器。Meta并不是随便拿个现成组件来用,
    而是用了一个基于MetaCLIP、但经过增强的视觉编码器。
    关键是,这个视觉编码器是专门在和一个冻结的Llama语言模型配合下训练的。
    这样可以确保视觉信息被翻译成一种------"视觉Token"的序列------
    让模型里的语言部分能够直接理解和融合。
  3. 融合信息流(Merging Streams):
    文本Token的序列和视觉Token的序列,随后会合并成一个统一的信息流。
    其中可能会用一些特殊的标记Token,来指示图像信息在流中开始和结束的位置。
  4. 统一推理(Unified Reasoning):
    这个融合后的信息流,会被送进Llama 4的Transformer主干里------
    同样强大的注意力机制(attention mechanisms)和MoE专家层(Mixture of Experts layers),会同时处理文本Token和视觉Token。

要实现这一点,需要真正的重量级技术,一种能养活无数代人的技术。

跨模态注意力简介

我们在各种图像和视频帧静态图上训练了我们的两个模型,目的是让它们拥有广泛的视觉理解能力,包括对时间动态活动以及相关图像的认知。这让模型可以在处理多张图片输入时,轻松结合文本提示,进行视觉推理和理解任务。这些模型在预训练阶段最多用了48张图像,在后训练测试中,我们试过输入多达8张图,效果也很不错。

------顺带提一句,使用视频帧静态图,可能可以捕捉到一些"动态"场景,而不是死板的静态照片,这会进一步拓展模型的多模态覆盖范围。

早期融合(Early Fusion)的魔力,就在注意力机制(Attention Mechanism)内部发生。因为文本Token和视觉Token是并排处理的,模型可以直接学习它们之间的联系。比如,当提示词里出现"滑板"这个词时,它可以直接"关注"到图像中对应滑板的视觉Token。反过来,一个突出的视觉特征,也可以影响模型对配套文本的理解。这种跨模态注意力Cross-Modal Attention),让模型的基础对齐能力(grounding)和推理能力,远远超过了那种把文本和图像分开处理的老旧做法。

这种集成式架构,是通过Llama 4的**联合预训练(Joint Pre-Training)**驱动的。它是从零开始,一起学习语言和视觉的关联的,训练用的是超大规模的数据集(是30万亿Token混合数据集的一部分),里面包含了海量的文本、图像,甚至还有视频。它不是先学文、再学视觉,而是一开始就同时学习像素和文字之间的联系的。

总的来说,这一切跟前面讲MoE那部分,是一个路数。我们选择了更难的技术路线,就是为了把性能真正压榨到极限。我觉得,Llama 4既是一项工程上的巨大成就,也是一项研究上的重大突破,甚至说,它更像是工程胜利的结晶。

接下来------是整个文章里最吸引眼球的部分了。

Llama 4在超长上下文上的飞跃

如果你在看我的文章,那你大概率已经不需要我再讲一遍什么是Context Window(上下文窗口)或者为什么它很重要了。所以咱们直接跳过铺垫,来看看Meta到底是怎么把长上下文性能搞定的。首先得从这里说起------

瓶颈:为什么长上下文这么难搞

在标准Transformer模型里,处理长序列会遇到一堆大难题:

  1. 计算开销(Computational Cost): 核心的自注意力机制(Self-Attention),每个Token都要跟其他所有Token互相"看一眼",计算量是跟序列长度N的平方增长的(O(N²))。当Token数上百万时,这种增长会很快把计算资源拖垮。
  2. 位置感知(Positional Awareness): Transformer天生是不懂词序的,它必须靠明确的位置编码来补充顺序信息。但简单的位置编码方法,在极长距离上会失效,抓不准相对位置关系。
  3. 内存占用(Memory Usage): Attention机制需要存储之前所有Token的中间Key和Value状态(也就是KV缓存)。这个缓存随着上下文长度线性增长,会消耗掉海量的GPU显存。
  4. 信息衰减(Information Decay): 模型在很长输入的中段,往往会忘记或者无法有效利用关键信息,这个现象叫做"Lost in the Middle"(中间迷失)。

要解决这些问题,并且真正把长上下文规模推上去,就必须依靠一种非常特殊的技术------

语言模型是怎么知道Token位置的------旋转位置编码(RoPE)

要理解Llama 4的突破,咱们首先得弄懂,像Llama这样的模型一般是怎么处理位置的。

从第一代开始,Llama系列模型就不是简单地给每个Token的Embedding加上一个固定的位置数值(绝对位置编码),而是用了旋转位置编码(RoPE)。

  1. RoPE要解决的问题: 我们需要一种编码方式,让模型不仅知道一个Token在整体序列中的位置(比如是第5个还是第500个),更重要的是,它能理解这个Token相对于其他Token的位置关系(比如第500个Token是在第490个Token之后的第10个位置)。这种相对位置感知,对于理解句法结构和依赖关系非常关键。而且,我们希望这种编码还能泛化到比训练时更长的序列长度上。
  2. RoPE的优雅思路: RoPE通过在注意力机制内部,旋转Token的Embedding向量来编码位置信息。它不是简单地叠加位置信息,而是直接根据Token的绝对位置,
    修改Attention机制中用到的Query(Q)和Key(K)向量。
  3. 它是怎么运作的(概念上): 想象一下,每个Token的Embedding向量,在某种程度上被划分成了成对的维度。RoPE把每一对维度看作一个二维平面上的坐标(就像一个复数)。根据Token的绝对位置m,RoPE对这些坐标应用一个旋转。旋转的角度取决于位置m和具体的维度对,不同的维度对会以不同的频率theta_k进行旋转。从数学上看,这相当于每个坐标对乘上一个e^(i * m * theta_k)。

  • 相对位置的魔法: 当模型计算位置m的Query和位置n的Key之间的注意力得分时,点积(dot product)计算自然地简化成,最终的注意力得分只依赖于它们的相对差异(m-n)和内容Embedding,而不是分别依赖于m和n的绝对位置。旋转操作实际上把绝对位置对得分计算的影响给抵消掉了。
  1. 好处: 这种做法优雅地编码了相对位置,在实际效果上表现也很好,而且比一些绝对位置编码或其他相对编码方法有更好的外推能力(也就是能泛化到更长的序列)。之前的Llama模型,成功地用RoPE支撑到了最长128K Token的上下文(比如Llama 3.1 405B版本)。

这也为Scout模型的突破打下了基础。

Llama 4 Scout的大飞跃:交错RoPE(iRoPE)突破1000万Token

虽然标准RoPE已经很厉害了,但要做到1000万Token这种级别,还得拿出点特别的东西。Meta引入了iRoPE(Interleaved RoPE),作为Scout超大上下文窗口的核心技术。

iRoPE的做法不是在每一层Attention里都一板一眼地用RoPE,而是------交替使用:

  • 有些层继续使用标准的RoPE,大概是为了保持对局部Token顺序和相对位置的精细理解,这正是RoPE最擅长的。
  • 其他一些层则在Attention计算中使用NoPE(No Positional Encoding),也就是完全不加任何位置编码。

为什么要把RoPE层和NoPE层混着用? Meta没有公布详细原理,但知识匮乏从来不会阻止我自信地胡乱猜测:

  • RoPE层: 负责专注在精确的局部上下文、句法结构、短距离相对排序。
  • NoPE层: 更适合聚合语义信息,或者捕捉长距离依赖,因为在这种超长距离里,
    主题关联可能比精确的相对位置更重要。而且,完全不加位置编码,可能还能避免在超大距离下,位置信号带来的噪声或者复杂性,纯靠内容相关性来建立注意力。

这是他们给出的说法,挺有意思的。确实是个挺有趣的主张,但说实话,我懂得还不够多,没法和人认真辩论这个。

交错使用RoPE和NoPE,可以让模型同时利用到------RoPE提供的精准局部顺序理解,以及NoPE带来的宽泛语义聚合,有可能打造出一个更鲁棒、更高效的超长序列表示方式。

那我有没有什么硬证据支持这些说法?说真的------没有。但是记住啊,小朋友们,千万别让什么"科学的谦虚"或者"追求真相"这种蠢东西,挡在真正重要的事情面前------比如,装得自己很聪明,刷到更多小饼干积分(brownie points)。如果让我给任何一个想成功的人提一条建议,那一定是------成功最快的方法,就是念出魔法咒语:"Just Trust Me Bro"。

虽然 iRoPE 很酷,但就像爆豪需要切岛才能成为最闪亮的小伙子一样,要实现超长上下文,还得靠一群重要的配角------

支撑超长上下文的辅助技术

实现 1000 万 tokens 不只是靠 iRoPE,这是一个团队合作的结果:

  • 有针对性的训练:Llama 4 Scout 明确是为了处理超长序列而训练的。它经历了预训练和后训练两个阶段,期间使用了最长达 256,000 tokens 的上下文。这种大规模的训练对模型来说至关重要,能让它学会有效利用自身架构优势,并能够推广到更长的输入上。这让我很想到 AlphaGeometry,用超长的证明步骤让 AI 的思考能力更上一层楼。

在生成的合成证明中,有 9% 使用了辅助构造。而在合成训练证明中,只有大约 0.05% 的证明长度超过了 AlphaGeometry 在测试集问题上的平均证明长度。最复杂的一条合成证明长度达到了惊人的 247 步,且用了两个辅助构造。大多数合成定理的前提条件不像人类发现的定理那样具有对称性,因为它们在生成时并不会偏向任何审美标准。

动态注意力缩放:Meta 提到了在推理时对注意力进行"温度缩放"。根据我的理解,它会根据序列中的位置动态调整 Query 向量的幅度。对于回溯得更远的 Query,会稍微多放大一些(基于一个对数函数)。这对处理超长序列(比如 Scout 的 1000 万 tokens)非常有帮助。标准的注意力机制在面对极长序列时容易出现"注意力衰减",而这种缩放机制能抵消这种衰减,本质上是在"锐化"由 Query 向量计算得到的注意力分数。这使得 NoPE 层,即使缺乏直接的位置信息,也能在极大范围内有效地优先关注重要的信息。

优化过的内核:底层的计算必须依赖极高效的注意力实现(比如 FlashAttention 的变种)来应对内存和计算需求。再一次要注意的是量化的重要性。这也是为什么我在最佳早期创业公司名单中,把 Clika(一家做模型压缩的初创公司)评得很高。因为,把这件事做好,能赚很多钱------

长上下文的意义

这让很多人非常兴奋,甚至有人预测 RAG 以及其他相关技术将会"死亡"。

不过,虽然这是一次突破性的进展,真正使用 1000 万 tokens 的上下文可不是一件简单的事。KV 缓存的内存需求依然很高,而且推理时间也会随着输入长度自然增加。此外,长上下文扩展还面临其他挑战------比如透明性、测试、如何做出有意义的改进等等,这些问题在部署上都会严重拖慢潜力的释放。这无疑会打开很多新的大门,但也值得记住:无论模型多强大,单次生成(one-shot generation)相比多轮生成(multi-generation)一直有着明显的劣势,是有原因的。我们将在另一篇文章里更详细地讲这个问题。

目前,我想再次强调:在超长上下文中工作的性质,与"在大海捞针测试(needle in a haystack)"中所测量的内容,实际上是非常不同的。

不过,不要因此小看了这项能力。这无疑是一个巨大的成就,我已经迫不及待想看到它在此基础上的进一步改进了。

继续往下讲,我们来说说后训练阶段(因为整体训练流程其实还是比较直接的)。

Llama 4 是如何进行后训练的

对一个拥有两万亿参数的模型进行后训练,本身就是一个巨大的挑战。这迫使我们不得不从数据规模开始,彻底推翻并重构整个训练方案。为了最大化性能,我们不得不对 SFT(监督微调)数据进行高达 95% 的筛减(相比之下,小型模型只需要筛减约 50%),以达到在质量和效率上的必要聚焦。我们还发现,先进行轻量级 SFT,然后再进行大规模强化学习(RL),能让模型的推理和编码能力获得更显著的提升。我们的 RL 方案聚焦于通过 policy 模型进行 pass@k 分析来采样高难度提示词(prompt),并据此制定一个提示难度逐步上升的训练课程体系。我们也发现,在训练过程中动态过滤掉"优势为零"的提示词,并通过混合多种能力来源的提示词来构建训练批次,这对提升模型在数学、推理和编码任务上的表现非常关键。最后,从多种系统指令中进行采样,对确保模型保持推理与编码任务中的指令跟随能力,以及在各种任务上有良好表现,也起到了决定性作用。

预训练赋予大型语言模型海量的知识,但真正把这种原始潜力转化为有用、安全且对齐的 AI 助手,依然依赖于后训练阶段。对于 Llama 4 系列,Meta 不仅仅是简单地放大了预训练规模,而是在后训练流程上进行了大幅革新,采用了一系列先进的技术,专门针对推理能力、对话能力的提升,以及确保模型在复杂情况下的负责任行为,尤其是像 Llama 4 Behemoth 这样拥有数万亿参数的超级大模型。

超越传统微调:一套新的训练方案

Meta 认识到,传统的后训练方法,尤其是重度的 SFT,往往会在强化学习(RL)阶段无意中抑制模型的探索潜力,导致在如编码、数学等高要求领域表现不佳。为了解决这个问题,Llama 4 采用了一套精细设计的三阶段流程:

轻量且聚焦质量的 SFT:初始的指令跟随阶段使用了高度筛减的数据集。Meta 通过移除 50%(Maverick 版本)到 95%(Behemoth 版本)被模型打分为"简单"的样本,只保留具有挑战性和高信号的数据,确保 SFT 阶段真正专注于困难任务。这种做法可以保留模型的核心推理能力,避免在进入探索性的 RL 阶段之前,因过度拟合简单对话模式而丧失潜力。如果你有注意的话,Meta 其实这几年一直在反复强调并实践这种方法------

高强度在线强化学习(RL)

这是 Llama 4 后训练中的核心精修阶段。Llama 4 的 RL 阶段高度聚焦于提升模型在困难提示(prompt)上的表现,这些困难提示通过在编码、数学和推理任务中进行 pass@k 分析等方法筛选出来。关键的创新点包括:

  • 持续的在线学习:通过一个迭代循环来实现,模型在困难提示上进行训练后,会生成新的数据;再从中筛选出中等到高难度的数据,进而动态构建出一个持续进化的学习课程体系。

**重要术语说明-**在线强化学习(Online RL)指的是智能体主动与环境实时交互,以收集数据并学习策略。而离线强化学习(Offline RL)则是在预先收集好的数据集上进行训练,不需要与环境实时交互,适用于那些直接交互受限或代价高昂的场景。这一点非常重要,因为这篇论文实际上在积极强调它们在离线 RL 上取得的性能表现。

  • 目标化筛选:主动移除那些模型已经表现良好("零提升")的提示词,把算力集中在真正需要改进的领域上。
  • 混合能力批次:每个训练批次混合了针对不同技能(编码、推理、对话)的提示词,确保模型能力均衡发展。
  • 多样化指令:使用各种不同风格的系统提示,保持模型对指令灵活响应的基本能力。

轻量级直接偏好优化(DPO) :作为最后一环,轻量应用DPO来进行最终打磨。主要用于调整特定风格偏好、响应格式,或处理与安全相关的小众情况,而不会限制前面通过强化学习发展出的复杂能力。

将强化学习扩展到万亿参数规模

要把这种高级强化学习策略应用到巨大的 Llama 4 巨兽上,Meta 必须在基础设施上进行重大创新。他们开发了一个完全异步的在线强化学习训练框架。这个系统将策略模型和奖励模型等组件解耦,根据计算需求灵活分配 GPU 资源,突破了传统同步分布式训练的限制。结合对 Mixture of Experts (MoE) 架构的并行优化,这套体系使训练效率提升了约 10 倍,从而让大规模复杂强化学习在最前沿规模上成为可能。

与之前发布的 Llama 系列不同(老实说,我个人觉得以前的 Llama 虽然重要,但实在提不起兴趣------所以我们也从来没报道过),Llama 4 是一款真正向前推进 LLM 边界的崭新模型。扎克伯格和 Meta 的各路人马这次真的是爆发了"秃鹰精神",硬是把开源王冠从欧洲人和中国人手里夺了回来。这是一件具有重大历史意义的事情。我现在要去吃个芝士汉堡庆祝一下。

该你们出招了,红色阵营。

感谢你看到这里,祝你有美好的一天,

记得保持优雅,别像 United 的后防线那么拉胯。

相关推荐
DragonnAi32 分钟前
基于项目管理的轻量级目标检测自动标注系统【基于 YOLOV8】
人工智能·yolo·目标检测
AI绘画咪酱1 小时前
【CSDN首发】Stable Diffusion从零到精通学习路线分享
人工智能·学习·macos·ai作画·stable diffusion·aigc
DeepSeek+NAS1 小时前
耘想WinNAS:以聊天交互重构NAS生态,开启AI时代的存储革命
人工智能·重构·nas·winnas·安卓nas·windows nas
2201_754918411 小时前
OpenCv--换脸
人工智能·opencv·计算机视觉
ocr_sinosecu11 小时前
OCR进化史:从传统到深度学习,解锁文字识别新境界
人工智能·深度学习·ocr
Stara05111 小时前
YOLO11改进——融合BAM注意力机制增强图像分类与目标检测能力
人工智能·python·深度学习·目标检测·计算机视觉·yolov11
movigo7_dou1 小时前
关于深度学习局部视野与全局视野的一些思考
人工智能·深度学习
itwangyang5202 小时前
AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用
人工智能·语言模型·自然语言处理
热心网友俣先生2 小时前
2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享
人工智能·数据挖掘