Meta 的 Llama 模型系列即将迎来第三次大更新

新加坡内哥谈技术2024-04-13 17:30

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

Meta 最近在他们的 Llama 模型家族上又搞大动作，准备迎来第三次大升级------Llama 3。他们的目标是让这些模型更大（高达1400亿参数），更开放，性能更棒。虽然最庞大的模型还得等上一阵，但下周我们可能就能见到些小一号的版本。

别慌，让我来细说：

Meta 的这次升级，让 Llama 3 模型家族的小弟们可能下周就跑出来见人了。这从 Llama 2 的框架上改良过来的，主打开源策略，不同大小的模型基于它们的参数量来划分。去年 Meta 就开始推这种大规模的开源语言模型，参数从70亿到700亿不等。现在，就连70亿参数的模型也被看作小巫见大巫了。

但现在市场上其他公司，比如 Mistral，也在推出同级别的强力模型，Llama 2 的70亿版本已经不是领头羊了。Meta 此举，意在通过推出 Llama 3 系列的小型版本来重夺市场。这些模型到底有多小还是个谜。是会延续 Llama 7亿和130亿的老路线，还是像微软的 Phi 和谷歌的 Gemma 那样，试水20亿参数的新级别？

为何你要关注这件事？

开源模型可以在你的设备上本地运行，不需联网。这样一来，既快速又保私隐，有时候还能省下不少成本。虽然这类模型处理长篇生成任务时表现不佳，但别误会，随着这类模型近年来的进步，它们的表现已经大大超过了 GPT-3.5。

不过，它们主要还是在特定任务上经过微调后使用，比如执行简单的 API 调用，或是提供设备助手服务（像是 Siri、Alexa 等）。