Meta 发布 Llama 4，新一代旗舰 AI 模型

Meta在周六发布了Llama家族的最新系列人工智能模型------Llama 4。

此次共推出四个新模型：Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。据Meta称，所有模型都经过了"大量无标签文本、图像和视频数据"的训练，赋予它们"广泛的视觉理解能力"。

DeepSeek推出的开源模型取得成功，其性能与Meta之前的旗舰Llama模型相当甚至更优，这促使Llama的开发进入加速模式。传闻Meta组建了专项团队研究DeepSeek如何降低R1和V3等模型的运行和部署成本。

Scout和Maverick已在Llama.com和Meta的合作伙伴平台（包括AI开发平台Hugging Face）上公开提供，而Behemoth仍在训练中。Meta表示，其人工智能助手Meta AI已升级为使用Llama 4，覆盖WhatsApp、Messenger和Instagram等应用，目前在40个国家可用。多模态功能暂时仅限美国地区使用英语。

一些开发者可能会对Llama 4的许可条款有异议。

"居住地"或"主要营业地"在欧盟的用户和公司被禁止使用或分发这些模型，这可能是由于该地区的人工智能和数据隐私法律施加的治理要求所致（此前，Meta曾抨击这些法律过于繁重）。此外，与之前的Llama版本一样，月活跃用户超过7亿的公司必须向Meta申请特别许可，Meta可自行决定是否授权。

"这些Llama 4模型标志着Llama生态系统新时代的开始，"Meta在博客中写道，"这仅仅是Llama 4系列的开始。"

Meta表示，Llama 4是其首批采用专家混合(MoE)架构的模型系列，这种架构在训练和查询响应方面更具计算效率。MoE架构基本上将数据处理任务分解为子任务，然后委派给更小的、专门的"专家"模型。

例如，Maverick拥有4000亿总参数，但在128个"专家"中只有170亿活跃参数（参数大致对应于模型的问题解决能力）。Scout有170亿活跃参数、16个专家和1090亿总参数。

根据Meta内部测试，Maverick在创意写作等"通用助手和聊天"用例方面表现出色，在某些编码、推理、多语言、长上下文和图像基准测试上超越了OpenAI的GPT-4o和Google的Gemini 2.0等模型。然而，Maverick在功能上尚不及Google的Gemini 2.5 Pro、Anthropic的Claude 3.7 Sonnet和OpenAI的GPT-4.5等更强大的最新模型。

Scout的优势在于文档摘要和大型代码库推理等任务。其独特之处在于拥有非常大的上下文窗口：1000万个标记（"标记"代表原始文本的片段，例如将"fantastic"分割为"fan"、"tas"和"tic"）。简而言之，Scout可以处理图像和多达数百万字的内容，使其能够处理极长的文档。

根据Meta的计算，Scout可以在单个Nvidia H100 GPU上运行，而Maverick需要Nvidia H100 DGX系统或同等配置。

Meta尚未发布的Behemoth将需要更强大的硬件。据该公司介绍，Behemoth拥有2880亿活跃参数、16个专家和近2万亿总参数。Meta内部基准测试显示，Behemoth在衡量数学问题解决等STEM技能的多项评估中优于GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Pro（但不及2.5 Pro）。

值得注意的是，Llama 4系列模型都不是类似OpenAI的o1和o3-mini的真正"推理"模型。推理模型会核实其回答并通常更可靠地回应问题，但因此比传统的"非推理"模型需要更长时间才能给出答案。

有趣的是，Meta表示已调整所有Llama 4模型，使其拒绝回答"有争议"问题的频率降低。据该公司表示，Llama 4会回应之前Llama模型不会处理的"有争议的"政治和社会话题。此外，公司称Llama 4在拒绝回答哪些提示方面"更加平衡"。

"您可以依靠[Llama 4]提供有用、事实性的回应，而不带任何判断，"Meta发言人表示，"我们正继续使Llama更具响应性，使其能够回答更多问题，能够回应各种不同观点[...]而不偏向某些观点。"

这些调整正值一些白宫盟友指责AI聊天机器人在政治上过于"觉醒"之际。

唐纳德·特朗普总统的许多亲信，包括亿万富翁埃隆·马斯克和加密货币与AI"沙皇"大卫·萨克斯，都曾指控流行的AI聊天机器人审查保守派观点。萨克斯历来将OpenAI的ChatGPT视为"被编程为觉醒"且在政治主题上不诚实。

实际上，AI中的偏见是一个难以解决的技术问题。马斯克自己的AI公司xAI也难以创建一个不会偏向某些政治观点的聊天机器人。

这并未阻止包括OpenAI在内的公司调整其AI模型，使其回答比以前更多的问题，特别是与有争议主题相关的问题。