人工智能领域再次迎来重磅消息!Meta 创始人兼 CEO 马克·扎克伯格亲自官宣,全新一代 Llama 4 系列大模型 震撼发布!这不仅是 Llama 家族的简单升级,更是一次彻底的重新设计,带来了混合专家(MoE)架构、原生多模态能力以及前所未有的超长上下文窗口。
最令人兴奋的是,其中两款主力模型------Llama 4 Maverick (400B) 和 Llama 4 Scout (109B) 现已开放下载,开发者可以立即在AI快站获取,AI快站已支持一键下载!
AI快站一键下载:
- 下载命令行工具
bash
# 下载hf-fast.sh
wget https://fast360.xyz/images/hf-fast.sh
chmod a+x hf-fast.sh
- 下载Llama 4模型
Llama 4访问地址:aifasthub.com/collections...
bash
# 下载命令
./hf-fast.sh -t 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 meta-llama/Llama-4-Scout-17B-16E-Instruct
./hf-fast.sh -t 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 meta-llama/Llama-4-Scout-17B-16E
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E-Instruct
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E
./hf-fast.sh -t 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 meta-llama/Llama-4-Scout-17B-16E-Instruct-Original
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8-Original
./hf-fast.sh -t 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 meta-llama/Llama-4-Scout-17B-16E-Original
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E-Instruct-Original
./hf-fast.sh -t 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 meta-llama/Llama-4-Maverick-17B-128E-Original

接下来,让我们深入解读 Llama 4 的核心亮点和技术细节。
Llama 4 家族新成员概览:三款模型,定位清晰
此次 Meta 一口气推出了三款 Llama 4 模型,各有侧重:
📌 Llama 4 Scout:极致小巧,千万级上下文先锋
-
定位: 性能最强的小尺寸模型。
-
参数: 17B 激活参数,16 个专家,总参数量 109B。
-
核心亮点:
- 速度极快,原生支持多模态(文本、图像、视频)。
- 业界领先的 1000 万 Token (10M+) 多模态上下文窗口,相当于处理超 20 小时的视频或 1.5 万页文本!
- 可在单张 H100 GPU 上运行(Int4 量化后),部署门槛相对较低。
- 在广泛基准测试中超越 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。
📌 Llama 4 Maverick:性能与成本的甜点,对标 GPT-4o
-
定位: 同级别中最佳的多模态模型,主打性价比。
-
参数: 17B 激活参数,128 个专家,总参数量 400B。
-
核心亮点:
- 在多个主流基准测试中击败 GPT-4o 和 Gemini 2.0 Flash。
- 推理和编码能力与新发布的 DeepSeek v3 相当,但激活参数量不到后者一半。
- 支持 100 万 Token (1M+) 上下文窗口。
- 实验性聊天版本在 LMArena 上 ELO 评分高达 1417,位列第二。
- 推理成本极具竞争力: 每百万 Token 仅需 <math xmlns="http://www.w3.org/1998/Math/MathML"> 0.19 − 0.19 - </math>0.19−0.49(输入输出 3:1),远低于 GPT-4o(约 $4.38/M tokens)。
- 可在单个 H100 主机上运行。
📌 Llama 4 Behemoth (预览):2 万亿参数巨兽,性能天花板
-
定位: Meta 迄今最强模型,全球顶级 LLM 之一,目前作为教师模型。
-
参数: 288B 激活参数,16 个专家,总参数量高达 2 万亿 (2T)!
-
核心亮点:
- 在多个 STEM 基准上优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
- 使用 FP8 精度,在 32000 块 GPU 上训练了 30 万亿 多模态 Token。
- 仍在训练中,发布时间待定。

核心技术突破:MoE、多模态与超长上下文
Llama 4 的强大性能源于其架构和训练方法的革新:
-
- 全面拥抱 MoE (Mixture of Experts)
-
原理: Llama 4 首次采用混合专家架构。模型包含多个"专家"网络,对于每个输入 Token,路由器会选择激活一小部分专家(例如 Maverick 激活 17B 参数,总参数 400B)。
-
优势:
- 更高效率: 在训练和推理时,计算量远小于同等参数量的密集模型。
- 更强性能: 在相同的计算预算下,MoE 模型通常能达到更高的质量。
- 优化部署: Maverick 采用交替的密集层和 MoE 层(128 个路由专家 + 1 个共享专家),进一步提升推理效率,使其能在单台 H100 主机上运行。
-
- 原生多模态:不再只是文本模型
- 实现: 采用**早期融合(early fusion)**策略,在模型主干中无缝整合文本、图像、视频 Token。
- 优势: 允许模型利用海量的未标记文本、图像、视频数据进行联合预训练,实现更深层次的多模态理解。视觉编码器基于 MetaCLIP 优化,更好地适应 LLM。Llama 4 可处理多达 48 张图像输入(训练时),并在推理时有效处理多达 8 张图像。
-
- 解密千万级上下文:iRoPE 架构的魔法 (10M+ Context)
-
目标: 实现"无限"上下文处理能力。Llama 4 Scout 的 1000 万 Token 上下文窗口是关键突破。
-
核心技术:iRoPE ('i' for interleaved layers, infinite)
-
思路: 通过追求无限上下文的目标来指导架构设计,利用模型的长度外推能力(在短序列上训练,泛化到极长序列,最大训练长度 256K)。
-
具体做法:
-
交错注意力层 (Interleaved Attention):
- 本地注意力层 (Local Attention): 使用 RoPE (旋转位置嵌入) 处理短上下文 (如 8K),可并行化。
- 全局注意力层 (Global Attention): 处理长上下文 (>8K),不使用位置编码 (NoPE 思想),提升外推能力。
-
推理时温度缩放 (Inference-Time Temperature Scaling): 解决长上下文注意力权重趋于平坦的问题,对全局层应用温度缩放(公式大致为 xq *= 1 + log(floor(i / α) + 1) * β),增强长距离推理,同时保持短上下文性能。
-
-
训练与优化:Meta 的"炼丹秘籍"
Meta 在 Llama 4 的训练过程中也引入了多项创新:
-
MetaP 技术: 一种新的训练技术,能可靠地设置关键超参数(如学习率、初始化尺度),且在不同批次大小、模型尺寸、训练 Token 量之间具有良好的迁移性。
-
FP8 高效训练: 大量使用 FP8 精度进行训练,在保证质量的同时大幅提升 GPU 利用率(Behemoth 训练达到 390 TFLOPs/GPU)。训练数据量高达 30 万亿 Token,是 Llama 3 的两倍。
-
多语言能力: 对 200 种语言 进行预训练,其中 100 多种语言的 Token 量超过 10 亿,多语言 Token 总量是 Llama 3 的 10 倍。
-
后训练新范式:轻 SFT -> 重在线 RL -> 轻 DPO
- 理念: 避免过度的 SFT/DPO 约束模型,限制 RL 阶段的探索。强化在线 RL(强化学习)的作用。
- 实践: 使用模型早期检查点作为"批评家",过滤掉超过 50% (甚至对 Behemoth 是 95%) 的简单 SFT 数据,进行轻量级 SFT。随后在多模态在线 RL 阶段,通过持续过滤、选择更难的提示,实现性能阶跃。最后进行轻量级 DPO 处理极端情况,平衡智能与对话能力。
Llama 4 vs DeepSeek v3:性能对比几何?
大家可能很关心 Llama 4 与近期同样表现亮眼的 DeepSeek v3 的对比。以顶级模型 Llama 4 Behemoth (预览) 与 DeepSeek R1 (初始发布) 和 OpenAI o1 (推测) 对比为例:

- MATH-500: Behemoth 略微落后于 DeepSeek R1 和 OpenAI o1。
- GPQA Diamond: Behemoth 领先 DeepSeek R1,但落后于 OpenAI o1。
- MMLU: Behemoth 落后于两者,但仍优于 Gemini 2.0 Pro 和 GPT-4.5。
总结与展望
Llama 4 的发布无疑是开源大模型领域的一个里程碑。其 MoE 架构、原生多模态能力、以及惊人的千万级上下文窗口,将极大地推动 AI 应用的边界,尤其是在需要处理海量信息、进行多模态交互的场景(如科研、医疗、工程、内容创作等)。
虽然目前 Llama 4 Reasoning 模型尚未发布,且新许可证对超大型企业有一定限制,但 Scout 和 Maverick 的开放无疑为广大开发者和研究者提供了强大的新工具。Meta 表示这只是开始,后续还有更多模型值得期待。