泄露的基准测试表明Meta Llama 3.1 405B模型的性能可能超过OpenAI GPT-4o

2024 年 4 月,Meta 推出了新一代最先进的开源大型语言模型Llama 3。前两个模型 Llama 3 8B 和 Llama 3 70B为同类规模的 LLM 树立了新的基准。然而,在短短三个月内,其他几个 LLM 的性能已经超过了它们。

Meta 已经透露,其最大的 Llama 3 型号将拥有超过 4000 亿个参数,目前仍在训练中。今天,LocalLLaMA 子论坛泄露了即将推出的 Llama 3.1 8B、70B 和 405B 模型的早期基准测试结果。泄露的数据表明,Meta Llama 3.1 405B 可以在几个关键的人工智能基准测试中超越目前的领先者 OpenAI 的 GPT-4o。这对开源人工智能社区来说是一个重要的里程碑,标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。

Meta 在"Llama 3"发布会上表示:

我们致力于开放式人工智能生态系统的持续增长和发展,以负责任的方式发布我们的模型。我们一直坚信,开放会带来更好、更安全的产品、更快的创新和更健康的整体市场。这对 Meta 有利,对社会也有利。

如基准测试所示,Meta Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4。但是,它在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4。

值得注意的是,这些数据来自 Llama 3.1 的基本模型。要充分释放模型的潜力,对其进行教学调整非常重要。随着 Llama 3.1 模型指令版本的发布,其中许多结果可能会有所改善。

尽管 OpenAI 即将推出的 GPT-5 预计将具备先进的推理能力,可能会挑战 Llama 3.1 在 LLM 领域的潜在领导地位,但 Llama 3.1 在 GPT-4o 中的强劲表现仍然彰显了开源人工智能开发的力量和潜力。这种持续的进步可能会使获取尖端人工智能技术的途径更加民主化,并加速技术行业的创新。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

相关推荐
John_ToDebug4 分钟前
2025年度个人总结:在技术深海中锚定价值,于时代浪潮中重塑自我
人工智能·程序人生
自可乐15 分钟前
n8n全面学习教程:从入门到精通的自动化工作流引擎实践指南
运维·人工智能·学习·自动化
king of code porter19 分钟前
百宝箱企业版搭建智能体应用-创建应用
人工智能·大模型·智能体
HDO清风24 分钟前
CASIA-HWDB2.x 数据集DGRL文件解析(python)
开发语言·人工智能·pytorch·python·目标检测·计算机视觉·restful
策知道30 分钟前
依托政府工作报告准备省考【经验贴】
大数据·数据库·人工智能·搜索引擎·政务
工程师老罗41 分钟前
Pytorch如何加载和读取VOC数据集用来做目标检测?
人工智能·pytorch·目标检测
测试_AI_一辰42 分钟前
Agent & RAG 测试工程05:把 RAG 的检索过程跑清楚:chunk 是什么、怎么来的、怎么被命中的
开发语言·人工智能·功能测试·自动化·ai编程
Henry-SAP43 分钟前
SAP(ERP) 组织结构业务视角解析
大数据·人工智能·sap·erp·sap pp
龙腾亚太43 分钟前
航空零部件加工变形难题破解:数字孪生 + 深度学习的精度控制实战
人工智能·深度学习·数字孪生·ai工程师·ai证书·转型ai
Coding茶水间44 分钟前
基于深度学习的输电电力设备检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
开发语言·人工智能·深度学习·yolo·目标检测·机器学习