LLaMA核心原作多半离职,Meta AI内幕曝光!算力争夺撕破脸,大模型团队成员连换三轮

过去 6 个月,ChatGPT 的爆火,彻底让 Meta 坐不住了。

从 2 月开始开源大模型系列 LLaMA 的发布,到 Llama 2 升级、再到编码模型 Code Llama,Meta 可谓是赌上所有去 ALL IN AI。

在开源社区,Llama 系列模型的免费研究和商用,直接点燃了平替模型裂变的火种。

可是,Meta 在风光的同时,AI 团队正面临着离职潮。

The Information 独家报道,因内部算力之争,LLaMA 和 OPT 项目的团队成员,大半已经辞职。

甚至,Meta 直接弃掉他们正研发能与 PaLM 匹敌的模型,将 Meta AI 的两个实验室团队重组,以专注研发 Llama 2。

Meta 大部分研究人员的离职,恰恰暴露了,算力短缺是布局生成式 AI 的核心难题。

LLaMA 论文 14 位作者,一半离职

在外界看来,科技巨头拥有比大多数公司更多的计算资源。一些公司包括 Meta 在内,在招聘 AI 研究人员时,一致强调自己是「GPU RICH」。

但事实上,自己心知肚明,Meta 的计算资源供应方面也存在限制。

由此,算力纷争便在内部团队开启,让许多人弃 Meta 而去。

具体来讲,今年 2 月发布的初代 LLaMA 模型中的 14 位作者,已经超过一半的人全部离职。

有的转向 AI 初创公司,有的加入了科技巨头。

论文地址:arxiv.org/pdf/2302.13...

离开 Meta 的研究科学家和工程师包括原 LLaMA 论文的作者之一 Timothée Lacroix、Guillaume Lample 和 Marie-Anne Lachaux。

他们现在在法国初创公司 Mistral AI 工作,该公司由 Lacroix 和 Lample 于 6 月共同创办。

还有其中的一位作者------Meta AI 的研究总监 Armand Joulin 已经在 5 月离开了 Meta,目前已加入苹果。

Meta 人工智能研究实验室「基础 AI 研究」的负责人 Joelle Pineau 在接受采访时表示:

留住和吸引优秀人才可能是我花费时间最多的地方,因为没有优秀的研究人员,我什么都做不了。

Meta 正在面临的离职潮,恰恰凸显了大型科技公司在应对对人工智能人才需求激增的挑战。

大模型浪潮当前,各大科技公司唯恐落后,急于将 AI 接入自家产品和服务。

Riviera Partners 的高管 Kyle Langworthy 称,「求贤若渴」的公司们,都排着队想挖角 Meta 的人工智能研究人员。

2 月份的时候,继 LLaMA 的发布点燃社区热情后,小扎曾连夜对外官宣了公司的大动作:成立顶级产品团队,专注 AIGC。

简言之,小扎将 Meta 未来的核心重点放在,生成式人工智能,以试图追赶谷歌、微软、OpenAI 等竞争对手。

而曾经在 2021 年 All In 的「元宇宙」,也被放在了次要的位置。

紧接着,Meta 时不时地发布并开源了在人工智能领域的最新研究,包括通用视觉模型 SAM「分割一切」、多模态 AI 模型 ImageBind、Llama2、Code Llama 等等。

这些研究一经发布,都在开源社区引起了很大的反响,得到一致好评。

而现在,随着有经验的研究人员流失,Meta 在追赶竞争对手的路上多了一重阻碍。

那么,具体是怎么回事,让这些高级研究人员愤而离去?

LLaMA 和 OPT 的算力之争

2013 年,Yann LeCun 入职 Meta 后,担任 AI 研究主管时成立了人工智能研究实验室 Meta AI(原 FAIR)。

除了在加利福尼亚州门洛帕克和纽约设立主要实验室(LeCun 的所在地),Meta AI 还在蒙特利尔(Pineau 的所在地)、巴黎、伦敦和西雅图设有分部。

Meta AI 实验室的成立,主要致力于 AI 的研究,将人工智能应用在翻译、MRI 扫描等各种场景。

但是,ChatGPT 横空出世之后,公司的高管们对 AI 更深层次融入产品的要求,变得更加急切。

其实,在 ChatGPT 发布之前,Meta 也一直在开发自己的 LLM。

2022 年 5 月,Meta AI 的一个北美团队对外公布,并开源了大模型 OPT-175B。

Meta 声称,这个模型的能耗要比 GPT-3 低,尽管这两个模型在训练期间学习的内容,在数量上是一样的。

几个月后,该团队开始着手开发第二个更大的模型,旨在与谷歌的 PaLM 竞争。

与此同时,另一个位于巴黎的 Meta AI 团队,已经开始着手开发一个单独的大型语言模型,也就是 LLaMA。

知情人士表示,这个模型比 OPT 要小。研究团队认为较小的模型在推理时会高效。

随之问题就来了,分别来自北美和巴黎两个实验室的团队,开启了获取算力资源之争,进而加剧了内部团队的纷争。

尤其是,LLaMA 团队感觉自己被忽视了,自己的模型小,但获得的计算资源比北美的 OPT 团队少的多。

「基础 AI 研究」的负责人 Joelle Pineau 表示,

关于在 Meta 如何分配计算资源的决策,是由来自业务不同部门的领导人组成的小组,大致每月做出一次。

最终分配多少,分配给谁,取决于组织优先事项,以及项目距离发布还有多远来决定。

如果 Meta AI 的员工就分配发生争议,就会提交到上级,也就是 Pineau 这一层去处理。

在采访中,Pineau 承认在 LLaMA 和 OPT 团队之间在算力分配上有些紧张,并补充道,「我们试图找到一条路,听取每个人的发声,即使无法去满足每个人的需求。」

对某些研究人员来说,这感觉像是一场竞赛。

Meta AI 的一些高管也在质疑,为什么两个团队都做着相似的项目,但又互相竞争有限的资源。

2 月巨变

两个团队之间的紧张关系,到今年 2 月达到了高潮。

恰在这个月,为了追赶竞争对手,Meta AI 首次将 LLaMA 作为开源模型发布,授权用于研究目的。

其实,在发布的前一周,Meta AI 的联合主管兼巴黎分部负责人 Antoine Bordes 就离开了 Meta,而对外的离职原因是⼯作时间与加州⼀样让自己筋疲⼒尽。

现在,Bordes 已经加入了人工智能公司 Helsing。

知情人士表示,他的离职进一步,让 LLaMA 团队与北美的高管隔离开来。另外,Pineau 也承认了 Bordes 的离职为团队「带来了一些不确定性」。

这不仅仅是 LLaMA 团队研究士气受挫的问题,与此同时,OPT 团队在过去几个月里,一直也在面临人员流失的问题。

据称,OPT 团队正在研发的更大型的模型,直接被 Meta 放弃。也不难理解,OPT 的人员流失,和这个决定有着直接的关系。

根据研究作者 Linkedin 个人资料,19 位 OPT 论文的作者中,也有一半人已离职 Meta。

论文地址:arxiv.org/pdf/2205.01...

「基础 AI 研究」的负责人 Pineau 无奈地表示,「当所有团队都想在这个时候升级模型,那时你要么选择其中一个,要么就让他们合作。」

团队重组,定位不清

在这一切发生的同时,Meta AI 也被公司的频繁地变动搞得焦头烂额。

自从去年 11 月开始,小扎进行了数次全公司范围的裁员。其中,Meta AI 也没能幸免。

今年 2 月,Meta AI 领导人决定将相互竞争 LLaMA 和 OPT 团队的一些成员聚集起来,正式成立「生成式 AI」团队,(由前苹果高管 Ahmad Al-Dahle 负责),同时也从 Meta AI 抽调了大量人员。

其实,我们在 Llama 2 论文中,可以看到不少 LLaMA 和 OPT 作者的身影。

比如 OPT 的团队中,Moya Chen、Todor Mihaylov、Punit Singh Koura 加入「生成式 AI」团队。

初代 LLaMA 团队中,Hugo Touvron、Thibaut Lavril、Xavier Martinet、Marie-Anne Lachaux、Naman Goyal、Aurelien Rodriguez 加入「生成式 AI」团队。

有趣的是,在 Llama 2 的致谢中,提到的 4 位最先发起这项研究的团队,其中三位已经离职,目前仅有 Edouard Grave 还在。

尽管备受赞誉的开源模型 LLaMA 取得了不小的成功,但随着 Meta 对人工智能研究态度的不断变化,研究人员之间的紧张关系仍在酝酿。

传统上来讲,Meta AI 拥有一种由研究人员主导的自下而上的文化,从而使团队能够专注于 AI 领域,并取得突破性的进展。

但随着小扎越来越倾向于将 AI 融入 Meta 的应用程序之中,Meta AI 的关注点也随之缩小------解散了那些不以产品为导向的研究,比如蛋白质折叠。

与此同时,新的项目也在生成式 AI 团队和 Meta AI 之间「反复横跳」。

比如,Meta 在 7 月发布的 Llama 2,以及在 8 月发布的专攻代码生成的 Code Llama,就是分别由两个团队负责的。

对此,Pineau 表示,「这个领域发展得实在是太快了,我们现在还在探索,哪个项目应该由 Meta AI 来负责?哪个项目又该由生成式 AI 团队来负责?」

台前,开源模型光鲜靓丽,而幕后,AI 研究人员离职潮涌、算力纷争、团队重组,为 Meta 倾力 AI 赶超对手带来了许多不确定性因素。

参考资料:

www.theinformation.com/articles/in...

相关推荐
成富1 小时前
文本转SQL(Text-to-SQL),场景介绍与 Spring AI 实现
数据库·人工智能·sql·spring·oracle
CSDN云计算1 小时前
如何以开源加速AI企业落地,红帽带来新解法
人工智能·开源·openshift·红帽·instructlab
艾派森1 小时前
大数据分析案例-基于随机森林算法的智能手机价格预测模型
人工智能·python·随机森林·机器学习·数据挖掘
hairenjing11232 小时前
在 Android 手机上从SD 卡恢复数据的 6 个有效应用程序
android·人工智能·windows·macos·智能手机
真忒修斯之船2 小时前
大模型分布式训练并行技术(三)流水线并行
面试·llm·aigc
小蜗子2 小时前
Multi‐modal knowledge graph inference via media convergenceand logic rule
人工智能·知识图谱
SpikeKing2 小时前
LLM - 使用 LLaMA-Factory 微调大模型 环境配置与训练推理 教程 (1)
人工智能·llm·大语言模型·llama·环境配置·llamafactory·训练框架
黄焖鸡能干四碗2 小时前
信息化运维方案,实施方案,开发方案,信息中心安全运维资料(软件资料word)
大数据·人工智能·软件需求·设计规范·规格说明书
2 小时前
开源竞争-数据驱动成长-11/05-大专生的思考
人工智能·笔记·学习·算法·机器学习
ctrey_2 小时前
2024-11-4 学习人工智能的Day21 openCV(3)
人工智能·opencv·学习