Llama 4 家族:原生多模态 AI 创新新时代的开启

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

要点总结:

  • 我们发布了 Llama 4 家族中的首批模型,让人们能够打造更加个性化的多模态体验。
  • Llama 4 Scout 是一款拥有 170 亿激活参数和 16 个专家模型的多模态模型,在同类模型中性能最强,胜过所有前代 Llama 模型,并可在单张 NVIDIA H100 GPU 上运行。此外,Llama 4 Scout 拥有业界领先的 1000 万上下文窗口,在多个知名基准测试中超越了 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
  • Llama 4 Maverick 拥有 170 亿激活参数、128 个专家,是同类中最强的多模态模型,在广泛基准测试中优于 GPT-4o 和 Gemini 2.0 Flash,且在推理和编程能力方面达到与 DeepSeek v3 相当的水平------但参数量仅为后者的一半。Maverick 实验版聊天模型在 LMArena 中取得了 1417 的 ELO 分数,展现出卓越的性价比。
  • 这些模型得益于 Llama 4 Behemoth 的蒸馏训练------这是我们目前最强大的模型,拥有 2880 亿激活参数和 16 个专家,是全球最智能的大型语言模型之一,在多项 STEM 基准上超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。Llama 4 Behemoth 仍在训练中,更多细节将持续披露。
  • Llama 4 Scout 和 Maverick 模型现已开放下载(可在 llama.com 和 Hugging Face 获取),Meta AI 搭载 Llama 4 的版本也可在 WhatsApp、Messenger、Instagram Direct 和网页版使用。

多模态新时代的开启

我们隆重推出 Llama 4 Scout 和 Llama 4 Maverick,这是首批开源权重的原生多模态模型,支持前所未有的长上下文,并首次采用专家混合(MoE)架构。此外,我们还预览了 Llama 4 Behemoth,它是全球最强之一的大型语言模型,也是我们的教师模型。

这些新模型代表了 Llama 生态系统迈入新纪元的起点。Scout 模型设计紧凑,使用 INT4 量化后可以部署在单张 H100 GPU 上,而 Maverick 则部署于单台 H100 主机。它们均基于 Behemoth 模型蒸馏而成,后者在 STEM 领域表现出色。我们尚未开放 Behemoth 下载,但很快将分享更多技术细节。

我们始终相信,开放是推动创新的核心动力,对开发者、Meta 以及整个世界都有益。因此,Llama 4 Scout 和 Maverick 均已开放下载,我们也将通过合作伙伴提供更多渠道访问。你还可以在 Meta 旗下多款产品中直接体验 Llama 4。


模型训练与架构

Llama 4 是我们首批采用 专家混合(MoE)架构 的模型,其中每个 token 仅激活部分参数,从而大幅提高训练与推理效率。Maverick 模型拥有 4000 亿总参数,但仅使用 170 亿活跃参数,128 个专家交替启用,使得在 NVIDIA H100 上运行高效灵活,适合本地部署与分布式推理。

Llama 4 原生支持多模态,在骨干网络中通过 早期融合(early fusion) 将文本和图像 token 融合。我们还对视觉编码器进行了强化,使其更好地适应语言模型。我们开发的新训练技术 MetaP,可自动设定每层的学习率和初始化比例,确保模型在不同配置下的稳定性。

预训练使用超过 30 万亿 token(是 Llama 3 的两倍),支持 200 种语言,其中 100 多种语言的 token 数超过 10 亿。我们采用 FP8 精度训练,在 32K GPU 上达成了 390 TFLOPs/GPU 的利用率。

Scout 支持 1000 万的上下文窗口,远超 Llama 3 的 128K,为长文本处理和大规模代码分析提供可能。此外,我们采用了 iRoPE 架构,通过交错式注意力层和旋转位置编码的组合来支持超长上下文。


后训练与优化

Maverick 是我们面向通用助手和聊天用例的主力模型,擅长图像理解和创意写作。为平衡多模态输入、推理和对话能力,我们采用了全新后训练流程:

  1. 轻量监督微调(SFT)
  2. 在线强化学习(RL)
  3. 轻量直接偏好优化(DPO)

我们使用 Llama 模型作为"裁判",筛除超过 50% 的简单数据,仅在困难数据上进行微调。随后在在线 RL 阶段选用更高难度的提示,提升模型能力。通过动态数据筛选和系统指令多样化采样,我们大幅提升了模型的推理与编程能力。

Maverick 的性能优于 GPT-4o 和 Gemini 2.0,在多语言、编程、图像、长上下文等领域均表现出色,并与 DeepSeek v3.1 相媲美。

Scout 模型同样拥有 170 亿激活参数、16 个专家与 1090 亿总参数,在小模型中表现卓越,并在图像定位(image grounding)任务中表现领先,能够将用户提示与视觉概念精准对齐。


Llama 4 Behemoth:两万亿参数的巨兽

我们预览了 Llama 4 Behemoth,这是拥有 2880 亿激活参数、近两万亿总参数的多模态专家混合模型。Behemoth 不仅在数学、多语言和图像任务上表现顶尖,也是训练 Scout 和 Maverick 的教师模型。

我们为此开发了新型蒸馏损失函数,动态加权软标签与硬标签,通过 Behemoth 的推理结果生成训练数据,显著提升学生模型的表现。

由于模型体量庞大,后训练过程需对 SFT 数据进行 95% 精简,并在 RL 阶段构建高难度训练计划,通过分批难度分层、系统指令多样化提升模型泛化能力。我们重构了 RL 基础设施,实现 10 倍训练效率提升。


安全机制与保护

我们构建了 Llama 4 的全流程安全机制:

预训练与后训练防护
  • 数据过滤与清洗
  • 安全数据注入策略
系统级防护工具(已开源):
  • Llama Guard:用于识别输入/输出是否违反应用安全政策
  • Prompt Guard:识别恶意提示(如 Jailbreak 和注入攻击)
  • CyberSecEval:评估模型网络安全风险
风险评估与红队测试

我们采用自动与人工相结合的方式进行模型极限测试,开发了 GOAT(生成式攻击测试) 工具,可模拟中等攻击者进行多轮交互,极大提升测试覆盖率与效率。


消除偏见的努力

我们努力减少模型在政治与社会话题上的偏见,让 Llama 能平衡呈现不同观点:

  • Llama 4 在敏感议题上的拒答率由 7% 降至 2% 以下
  • 拒答偏差(对某些立场过于敏感)降至 1% 以下
  • 与 Llama 3.3 相比,Llama 4 的强偏政治倾向回答减少了一半,表现与 Grok 相当

拓展 Llama 生态系统

Llama 不只是模型,而是完整生态。除了模型本身,我们也在扩展产品集成,持续与开源社区合作。我们期待在 4 月 29 日的 LlamaCon 大会上分享更多未来愿景。

不论你是开发者、企业用户还是 AI 爱好者,Llama 4 Scout 和 Maverick 都是下一代智能产品的理想选择。我们也期待看到你用这些模型创造的精彩应用。

相关推荐
龙腾AI白云15 小时前
数字孪生底层逻辑和技术
深度学习·django·flask·fastapi·tornado
Alsian15 小时前
Day45 神经网络调参
深度学习·神经网络·机器学习
boy快快长大15 小时前
【PyTorch】2.0 入门学习
人工智能·pytorch·学习
代码探秘者15 小时前
【大模型应用】1.了解RAG
java·人工智能·python·spring
范桂飓15 小时前
OpenClaw 的安全方案
人工智能·安全
七夜zippoe15 小时前
AI Agent 框架选型指南:OpenClaw、LangChain、AutoGPT、CrewAI 深度对比
人工智能·langchain·autogpt·crewai·openclaw
老刘说AI15 小时前
浅聊Prompt、向量知识库、RAG
人工智能·prompt
J987T15 小时前
数字图像处理/医学成像原理/医学图像处理题目
图像处理·人工智能
向哆哆15 小时前
交通标识与信号灯数据集(1000张图片已划分、已标注)AI训练适用于目标检测任务
人工智能·目标检测·计算机视觉
Yeats_Liao15 小时前
OpenClaw(二):配置教程
大数据·网络·人工智能·深度学习·机器学习