Llama 4 爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun 出面救火


新智元报道

编辑:编辑部 YNH

【新智元导读】近日关于 Meta Llama 4 的「训练作弊」爆料搞得沸沸扬扬。Meta 迅速反击,Licheng Yu、Di Jin 及 GenAI 负责人 Ahmad Al-Dahle 接连辟谣,首席 AI 科学家 Yann LeCun 也亲自下场力挺。与此同时,Llama 4 的实际表现却频频被吐槽。

Llama 4 大瓜,又有了新的反转。

昨日,自称是 Meta 内部员工的一则 Llama 4 训练作弊爆料,彻底掀翻了全网。

紧接着,Meta 研究科学家主管 Licheng Yu 实名辟谣,团队根本没有针对测试集过拟合训练。

此前,他曾参与了 Llama 3 系列的研发,并这次负责 Llama4 17B 模型。

另一位 Meta 高级 AI 研究科学家 Di Jin(此次负责 Llama 4 288B)反怼道,「我参与了微调和强化学习的 datamix,也没有这种情况,楼主是否实名证实」?

而且,他还抓住了所谓爆料者的一大破绽------最近离职高级 VP,并非是 GenAI 团队的。但凡是内部的员工,不可能不了解这一点。

与此同时,领导 Llama 团队的 Meta GenAI 副总裁兼负责人 Ahmad Al-Dahle 在 X 上发帖进行了澄清。

Ahmad 表示,不同平台间之所以会存在质量差异,是因为模型在完成开发后 Meta 便立即进行了开源。预计还需数日,各家才能完成优化适配。

至于那些「使用测试集训练」的言论,可以说是毫无依据,因为这完全违背了 Meta 原则。

Ahmad 坚信 Llama 4 模型标志着重大的技术进步,并期待与开发者社区携手挖掘其潜能。

作为 Meta 首席 AI 科学家的 Yann LeCun,也在第一时间转发了 Ahmad 的帖子表示力挺。

话虽如此,但并不能「洗白」Meta 在背后偷偷动了手脚------刷榜 LMSYS 的 Llama 4 是一款「提供版」模型。

竞技场开撕 Meta,2000 + 对话公开真相

Llama 4 开源首日,Maverick 模型在 Chatbot Arena 上拿下仅次于 Gemini 2.5 的高分。

然而,开发者下载后发现,Meta 公开的与 HF 公开下载的模型大相径庭,一时间大模型排行榜被全网骂惨。

今天,lmarena.ai 团队彻底坐不住了,直接下场开怼。

他们发文表示,为了确保完全透明,我们公开了 2000 + 组模型对战数据,包括用户提示词、模型回复、用户偏好供超看。

更劲爆的是,团队直指 Meta 在提交模型时,并非用的是原版,而是 Llama-4-Maverick-03-26-Experimental。

这是一个经过 DPO 优化的定制模型,然而 Meta 在提交时并未明确说明这一点。

为了平息争议,团队火速给出解决方案,公开对战数据同时,并尽快上线 Llama 4 Maverick 公开版,并随后更新榜单结果。

Llama 4 弱爆?吐槽一大片,但也有力挺

虽然整件事只是一个抓马,但 Llama 4 实力拉跨是真的。

在 aider 多语言编程基准测试中,Llama 4 Maverick 仅拿下了 16% 成绩,远不及 Qwen2.5-Coder、DeepSeek V3 开源模型。

更不用提 Gemini 2.5 Pro 和 Claude 3.7 Sonnet 了。

网友 Flavio Adamo 使用相同的提示词,分别让 Llama 4 Maveric 和 GPT-4o 制作一个旋转多边形的动画。

可以看出,Llama 4 Maveric 生成的多边形并不规则而且没有开口。小球也不符合物理规律,直接穿过多边形掉下去了。

相比之下 GPT-4o 制作的动画虽然也不完美,但至少要好得多。

另外,Llama 4 Scout 最大优势便是支持 10000 token 上下文,甚至当时有网友直呼「RAG 已死」。

可事实上,在最新上下文基准测试中,Llama 4 的排名几乎可以算上倒数的了。

报告中指出,Llama 4 的表现令人失望。Maverick 未能改进本就低于平均水平的 Llama 3.3 70b,而 Scout 模型更是糟糕透顶。

谷歌的博士研究员 Kaixuan Huang 表示 Llama 4 的数学能力弱爆了。

他们在 MATH-Perturb 基准测试上测试了 Llama4-Scout,其得分排名甚至不及参数更小、发布更早的 DeepSeek-R1-Distill-Qwen-14B。

实在难以想象这是一个新发布的模型。

地址:math-perturb.github.io/

不过,斯坦福计算机助理教授 Percy Liang 刚刚发布一个新基准,Llama 4 Maverick 竟拿下了最高分。

针对这次基准乌龙事件,他本人也做出了回应,每个人不要过度解读排行榜。如果对一个模型进行多样测试,一切就清晰了。

DS 太强,小扎按下恐慌按钮

Llama 4 效果如此不尽人意,难道 Meta 不能等一切准备就绪再发吗?

时间来不及了!

有传言称,4 月第二周,Qwen-3 即将出世,而且说不定哪天 DeepSeek R2 突然发布了。

届时,Llama 4 可能更就拿不出手了,毕竟几个月前,Meta 前员工爆料称,内部高层恐慌一片。

来自艾伦研究员 Nathan Lambert 发长文称,Llama 4 可能是今年最奇怪的一次模型发布。

曾经,Llama 系列每一次迭代,都被视为 AI 领域年度大事件,如今 Llama 4 却让人感到迷失。

Llama 4 包括三款模型,最大亮点采用了 MoE 架构,训练计算量比 Llama 3 更少。

在 LMArena 排行榜上,Llama 4 Maverick 取得了 1417 ELO 高分,表现抢眼。

但诡异的发布时间,「轻浮」的对话风格,以及评估数据的缺乏,都让 Llama 4 的亮相尽显慌乱。

业界一直发出质疑------Llama 4 的设计更像是古早的模型,复杂 MoE 架构、超大参数规模、高内存需求,与开发者需求渐行渐远。

相较之下,Qwen 2.5 提供了多样化模型选择,更贴近开源标杆的设计。

从目前来看,Meta 团队似乎更专注于用 AI 赋能自家平台,而非真正支撑开源的生态。

参考资料:

x.com/ylecun/stat...

x.com/emollick/st...

相关推荐
PowerBI学谦4 分钟前
Copilot for PPT 可直接用模板创建品牌演示文稿
人工智能·microsoft·copilot
没有梦想的咸鱼185-1037-166313 分钟前
【大模型ChatGPT+ArcGIS】数据处理、空间分析、可视化及多案例综合应用
人工智能·arcgis·chatgpt·数据分析
夏子曦17 分钟前
AI——认知科学中的认知架构建立步骤与方法
人工智能·机器学习
lboyj42 分钟前
AI赋能高频PCB信号完整性优化
大数据·人工智能
__Benco1 小时前
OpenHarmony平台驱动开发(十一),PIN
人工智能·驱动开发·harmonyos
拓端研究室TRL1 小时前
CNN-LSTM、GRU、XGBoost、LightGBM风电健康诊断、故障与中国银行股票预测应用实例
人工智能·神经网络·cnn·gru·lstm
零炻大礼包1 小时前
【coze】意图识别(售前售后问题、搜索引擎去广告)
人工智能·coze
小小毛桃1 小时前
使用PyTorch训练马里奥强化学习代理的完整指南
人工智能·pytorch·python
南玖yy1 小时前
内存安全革命:工具、AI 与政策驱动的 C 语言转型之路
c语言·开发语言·c++·人工智能·安全·c++23·c++基础语法
Dipeak数巅科技1 小时前
数巅智能携手北京昇腾创新中心深耕行业大模型应用
人工智能·数据分析·商业智能bi