Llama 4 Maverick Scout 多模态MoE新里程碑

传送锚点

Meta Llama 4 Maverick和Scout模型近日在Hugging Face Hub上发布 这标志着大型语言模型发展的一个重要飞跃 两款模型均采用原生多模态MoE架构 不仅能力强大 而且在长文本处理方面展现了惊人创新

Llama 4 技术亮点

Llama 4 是Meta推出的新一代自回归混合专家模型MoE架构 此次发布包含两个核心模型

  • Llama 4 Maverick 具备17B活跃参数 总参数量约400B 拥有128个专家模块 这是其能力卓越的关键

  • Llama 4 Scout 同样拥有17B活跃参数 但总参数量约为109B 仅使用16个专家模块 注重效率

两款模型都实现了原生多模态能力 能够直接处理文本和图像输入 Llama 4 在高达40万亿个token的数据集上训练 覆盖200种语言 并针对阿拉伯语 西班牙语 德语和印地语等12种语言进行了特定微调

部署与优化

为了提高部署的灵活性和可访问性 Llama 4 Scout 经过优化 可通过即时4位或8位量化 在单张服务器级GPU上运行 而Maverick则提供BF16和FP8格式 这些模型均遵循定制的Llama 4社区许可协议发布 可在模型库中查看

Hugging Face 生态整合

Hugging Face 提供了全面的集成支持 助力社区立即投入使用

  • 模型检查点 Llama 4 Maverick和Llama 4 Scout的模型权重以及指令微调版本 已在Hugging Face Hub的meta-llama组织下开放

  • transformers支持 Llama 4 模型已完全集成到transformers v4.51.0及更高版本 支持简便的加载 推理和微调 包括其原生多模态功能

  • TGI支持 Text Generation Inference TGI 也对两款模型提供支持 确保高效可扩展的部署

  • 量化支持 Scout 提供即时int4量化代码 Maverick则包含FP8量化权重 满足不同硬件配置的需求

  • Xet存储 所有Llama 4模型均采用Xet存储后端 提升上传下载速度 并实现了约25%的数据去重 衍生模型甚至可达约40%的去重效果 大幅节省时间和带宽

长文本处理秘诀

Llama 4 模型预训练上下文长度为256K 指令微调模型支持更长的上下文长度 其中Maverick支持1M而Scout版本则达到了惊人的10M 这得益于一系列创新架构选择

  • 无位置编码NoPE层 Llama 4 在每四个层中使用NoPE层 它们抛弃了传统的RoPE等位置编码方案 而是利用完整的因果掩码处理上下文 在长文本处理中至关重要

  • 分块注意力Chunked Attention 在使用传统RoPE位置编码的层中 采用分块注意力机制 减少内存需求 RoPE层只关注8K块的上下文 而NoPE层可访问整个上下文

  • 注意力温度调节 针对长序列中注意力得分趋近于零的问题 Llama 4 在NoPE层引入温度缩放机制 提高了对任意上下文长度的泛化能力 这可能是Scout实现10M上下文长度的关键

  • QK归一化 Scout模型在RoPE层中对查询Query和键Key状态进行了额外的RMS归一化

  • MoE交错 Scout是一个完整的MoE模型 包含16个专家 Maverick则采用MoE层和密集层交替的方式 专家应用于一半的层中

  • 协同蒸馏Co-distillation Maverick通过一种新颖的损失函数 从更大的Llama Behemoth模型中协同蒸馏而来 动态平衡学生模型和教师模型的逻辑值

  • MetaP 模型利用MetaP方法 优化训练预算和模型尺寸等维度上的超参数

性能评估

Llama 4 模型在各项评估中展现了卓越性能 显著超越了如Llama 3.1 405B等前代模型 例如 在推理和知识任务上 经过指令微调的Maverick在MMLU Pro上取得了80.5%的成绩 在GPQA Diamond上达到69.8% 而Scout分别取得了74.3%和57.2%

使用指南

借助transformers库可轻松开始使用Llama 4 请确保安装transformers v4.51.0或更高版本 例如 使用指令微调的Maverick模型处理多模态输入 需要多张GPU来并行运行详细用法和示例可在模型仓库中查看包括多模态示例 特定提示格式和高级配置选项

相关推荐
2501_948114245 分钟前
2026年大模型API聚合平台技术评测:企业级接入层的治理演进与星链4SAPI架构观察
大数据·人工智能·gpt·架构·claude
小小工匠7 分钟前
LLM - awesome-design-md 从 DESIGN.md 到“可对话的设计系统”:用纯文本驱动 AI 生成一致 UI 的新范式
人工智能·ui
黎阳之光23 分钟前
黎阳之光:视频孪生领跑者,铸就中国数字科技全球竞争力
大数据·人工智能·算法·安全·数字孪生
小超同学你好33 分钟前
面向 LLM 的程序设计 6:Tool Calling 的完整生命周期——从定义、决策、执行到观测回注
人工智能·语言模型
智星云算力1 小时前
本地GPU与租用GPU混合部署:混合算力架构搭建指南
人工智能·架构·gpu算力·智星云·gpu租用
jinanwuhuaguo1 小时前
截止到4月8日,OpenClaw 2026年4月更新深度解读剖析:从“能力回归”到“信任内建”的范式跃迁
android·开发语言·人工智能·深度学习·kotlin
xiaozhazha_1 小时前
效率提升80%:2026年AI CRM与ERP深度集成的架构设计与实现
人工智能
枫叶林FYL1 小时前
【自然语言处理 NLP】7.2.2 安全性评估与Constitutional AI
人工智能·自然语言处理
AI人工智能+1 小时前
基于高精度身份证OCR识别、炫彩活体检测及人脸比对技术的人脸核身系统,为通信行业数字化转型提供了坚实的安全底座
人工智能·计算机视觉·人脸识别·ocr·人脸核身
小敬爱吃饭1 小时前
Ragflow Docker部署及问题解决方案(界面为Welcome to nginx,ragflow上传文件失败,Docker中的ragflow-cpu-1一直重启)
人工智能·python·nginx·docker·语言模型·容器·数据挖掘