前言
2025年4月5日,Llama4 大模型正式发布。尽管此前Meta Llama团队负责人乔尔·皮诺于4月1日宣布将于5月30日离开Meta公司(不是愚人节玩笑哈!), 但Meta公司似乎并未受很大影响。作为大模型开源界的老牌强者,Llama4的发布试图再次证明Meta在大模型领域深厚的技术积淀。连总裁扎克伯格也在社交媒体为Llama4亲自站台。

据Llama官方资料显示,Llama4最新开源模型在当前大模型竞技场中排名第二,仅次于谷歌3月底发布的Gemini2.5 Pro模型,更是唯一一个评分超过1400分的开源模型。

不过官方说辞不一定可信,Llama4实际性能还需要详细分析评测。下面我将从技术人角度从Llama模型历史回顾 、Llama4模型与DeepSeek模型对比 、Llama4模型新特性 、 Llama4实际评测效果四方面带大家全面了解Llama4大模型~
一、Llama模型历史回顾
- 2023年2月 ,Meta公司以意外泄露核心资料为由开源Llama大模型 ,在那个GPT-3.5统治一切的时代,大家第一次接触到开源大模型,也真正知道可用的大模型到底长啥样。彼时的Meta在元宇宙项目惨败后,竟凭借Llama这个开源项目实现逆风翻盘。(照目前情况来看意外泄露核心资料很难说不是扎克伯格的自导自演)
- 2023年7月Llama2发布 ,宣布性能追平GPT-3.5大模型,并大幅领先于其它开源模型。开源的特性和优异的性能使得Llama成为最炙手可热的大模型。众多机构通过对Llama2模型进行微调得到专业领域大模型,比如哈工大SCIR实验室的"华佗"医疗大模型就是在Llama2上微调得到的。
- 2024年4月,Llama3 一经发布就成为全球范围内首个能和GPT-4模型对标的开源大模型。这也是Llama模型系列的巅峰。
- 2024年12月26日 ,DeepSeek-V3 的横空出世彻底改变行业规则,开源模型界不再是Llama一家独大,而后续DeepSeek-R1发布后其优异的性能和巧妙的技术架构更是直接让Llama在开源界跌下神坛。
- 2025年4月5日 ,Meta在沉寂一年后发布Llama4模型, 此举更像是被DeepSeek揍醒之后的绝地反击,Llama4模型大量借鉴了DeepSeek模型的架构和训练思路,并在其基础上进行了创新和优化。

二、Llama4模型借鉴了DeepSeek模型的设计思路
"Llama4模型的中文能力相比DeepSeek-V3/R1表现不佳,但Llama4模型拥有DeepSeek-V3/R1不具备的多模态能力。Llama4模型集成了推理、对话、多模态视觉功能三位一体,最高支持10M也就是1000万tokens上下文,并在原生多模态模型后训练等多个领域有技术创新。"
通读Llama4的技术报告,虽然它相比DeepSeek-V3/R1有增量能力(例如多模态等),但不可否认Llama4的设计理念深受DeepSeek-V3/R1设计理念的影响,具体表现在如下方面:
2.1 混合专家架构
Llama4模型采用了和DeepSeek-V3架构类似的MOE混合专家模型架构,这也是Llama的第一款MOE架构模型。
MOE架构的独特之处在于单个token仅激活总参数的一部分,从而使训练和推理过程更加高效。在固定训练预算下,MoE架构相比传统密集模型能显著降低服务成本和延迟。DeepSeek-V3采用了MoE架构,虽然有671B参数,但在推理时只激活37B参数。Llama4在推理时也只激活17B参数。
2.2 大模型蒸馏小模型
Llama4模型是系列模型,该系列包括三个模型:Llama4 Scout , Llama4 Maverick 和Llama4 Behemoth , 这三个模型参数量由小到大,性能也由弱到强。目前Llama4 Scout 和Llama4 Maverick 已经发布,Llama4 Behemoth还在期货阶段,预计将于今年夏天发布。
或许通过DeepSeek的爆火Meta观察到模型只要性能够强,用户会愿意主动提升硬件性能(与阿里qwen系列模型开发理念背道而驰), Llama4系列的这三个模型参数量都比较庞大。
Llama4 Scout: 号称是仅次于DeepSeek的最强开源模型, 参数量达到了109B,约为DeepSeek的1/6,采用了原生的BF16模型格式,需要至少4卡H100才能顺利运行。4bit量化的模型,也需要单卡H100才能运行。

Llama4 Maverick: 号称性能介于DeepSeek和目前世界排名第一的Gemini Pro中间,参数量达到400B,可以在8卡H100的环境下运行(640G显存)。Meta表示如果说Scout模型是DeepSeek的平替,那么Maverick模型已经全面超过DeepSeek。


Llama4 Behemoth: 号称目前世界上最强大的模型,参数量达到2880亿(DeepSeek-V3模型参数量的4倍)。目前虽未正式发布,但据Llama官方声明称Behemoth模型是scout和maverick模型的"教师",也就是说scout和maverick模型的性能是由Behemoth蒸馏而来的。此举借鉴了DeepSeek-R1的思路,也难怪目前外网有很多人评价说Llama4是DeepSeek复现最成功的案例。

2.3 低价优势
Llama4不但在模型架构和发布方式上借鉴DeepSeek-V3,甚至在商业策略上也向DeepSeek学习。 Llama4在API价格上内卷,目前的定价甚至不到DeepSeek-V3的一半。

三、Llama4创新特性
当然Llama4也并不是完全"抄袭"DeepSeek,作为原生的多模态大模型,Llama4在长上下文 ,图像识别 和多语言方面有显著增强
3.1 超长上下文支持
为实现超长上下文支持的能力,Llama 4采用了名为 iRoPE 的创新架构,包含无位置嵌入的交错注意力层和推理时的温度缩放技术。Llama4 Scout最高支持10M也就是1000万tokens的上下文,甚至可以把一整个项目的代码放入Llama4进行问答,实用性大幅度增加。这一突破性进展开启了多文档摘要、解析广泛用户活动以实现个性化任务以及推理庞大代码库的可能性。
3.2 多模态能力
Llama4最耀眼的能力应该是图像推理能力,得益于Llama4通过早期融合技术无缝整合文本和视觉token到统一的模型主干中,Llama4模型的多模态识别能力非常强,支持多张图片在多轮对话的连贯记忆,并且幻觉很少,甚至可以做到对图像中的实体精准识别并相应推理。以下示例是Llama4可以识别出图像中不同颜色的小鸟:

3.3 多语言支持增强
Llama 4通过在200种语言上预训练显著增强了多语言能力,总体多语言token比Llama 3多10倍。这使得Llama 4在全球范围内的应用更加广泛,能够支持更多用户的语言需求。不过在这种情况下Llama系列还不支持中文,如果想在中文条件下使用需要利用工具和中文语料来微调,不知道这让互联网上叫扎克伯格"中国女婿"的网友作何感想~
四、Llama4表现实测
在官方的声明下,Llama4模型的性能直接点名DeepSeek,国内不少知名媒体也以此为噱头撰写标题。但截至2025年4月8日,从多方评测结果来看:Llama4不但没有炸裂,能力还翻车了! Llama4免费体验网址:openrouter.ai/chat?models...
4.1 编程能力
作为一名程序员,自然会对大模型的编程能力额外关注,但据权威的Kcores
大模型竞技场的评测来看,Llama4-Maverick 400B大模型代码能力大概跟QWQ-32B的代码能力相当,而Llama4 Scout 107B能力只与Grok2或文心4.5相近,以下是评测打分:

笔者这边也亲自测试一些代码评测经典示例:生成一个小球在旋转多边形弹跳的动画,并且小球跳动过程中要遵循重力和摩擦力的影响。结果显示,Llama 4 Maverick 生成的多边形形状缺乏开口,小球的运动也违背物理规律,相比之下,新版 GPT-4o 的表现明显更胜一筹,而 Gemini 2.5 Pro 的表现则堪称王者。

4.2 逻辑能力
笔者通过如下经典问题测试了Llama4模型的逻辑能力:
- "strawberry"中有几个r? Llama4回答错误: 2个R

- 9.9与9.11哪个大? Llama4回答错误:9.11大于9.9

这两个经典案例都没能通过,不禁让笔者对Llama4的能力捏了一把汗~
4.3 文本能力
代码和逻辑能力比不过DeepSeek,连Llama4官方最引以为傲的超长文本上下文能力也翻车了,有国外网友评测在长文本的理解上Llama4的排名都在10名开外,开源模型界最强的文本理解模型还是DeepSeek-R1。

五、丑闻
场内性能低下,场外麻烦不断。近日关于Llama4的的一些丑闻也被爆料了出来。有Meta内部员工爆料:"经过反复训练后,Llama 4未能取得SOTA,甚至与顶尖大模型实力悬殊。为了蒙混过关,高层甚至建议:在后训练阶段中,将多个benchmark测试集混入训练数据。在后训练阶段中,将多个benchmark测试集混入训练数据。最终目的让模型短期提升指标,拿出来可以看起来不错的结果。"

虽然以上言论真实性遭到Meta公司员工的反驳,有待考证,但Llama4性能的落后确实让外网网友很失望,沃顿商学院教授Ethan Mollick一语中的,【如果你经常使用 AI 模型,不难分辨出哪些是针对基准测试进行优化的,哪些是真正的重大进步】

目前外网很流行的一幅漫画说明了Llama4的尴尬处境,现在的Llama4确实没有以往版本惊艳,与其它大模型比起来更像是"皮包骨"的弱鸡

六、总结
万众期待的Llama4模型意外翻车了!但这也侧面告诉我们:能够推动AI真正进步造福人类的是那些底层"干货",而不是为对飙KPI的急于求索,DeepSeek公司给Meta上了很好一课。
当然话说回来Llma4模型也不是一无是处,它原生多模态能力是很多模型不具备的。笔者建议在日常编程、文本生成等工作中还是使用qwen, deepseek系列模型,在一些多模态处理上可以尝试Llama4模型,通过多模型特色能力的有机结合帮助我们更好完成任务!
以上就是我对Llama4的评测分享, 感兴趣大家点个关注吧。大家也可关注我的同名微信公众号:大模型真好玩,免费分享工作生活中大模型开发教程和资料~