Meta出招了!Megalodon LLM对Transformer架构发起挑战!

前两天,科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章,名字就叫"Meta 携 Megalodon LLM 挑战 Transformer 架构"。

这篇文章就是聊聊Meta用的这个叫Megalodon LLM巨齿鲨的大模型,说是它能节省内存,还挑战Transformer架构呢。咱们一起来看看文章都讲了啥。

由 Meta 和 南加利福尼亚大学 的那些聪明的研究人员提出了一种新的机器学习 (ML) 模型,它的目标就是解决 Transformer 架构的一些棘手问题。

这个 Transformer 架构,是一种深度学习架构,催生了大型语言模型 (LLMs) 的新时代。

这个新模型叫 Megalodon(巨齿鲨),它可以让语言模型把处理的上下文窗口扩展到数百万个令牌,而不会把你的内存塞满。

实验室的数据显示,Megalodon 在处理大量文本的表现比同类型大小的 Transformer 模型还要强。Megalodon 是一系列新模型中的最新一款,被看作 Transformer 的新接班人。

长上下文窗口

"上下文窗口"这个词,其实就是模型一次能处理的令牌数量。如果上下文窗口变大,LLMs 就能进行更长时间的对话,处理更长的文档,学习的东西也更多。

但是,要想把 Transformer 的上下文窗口扩大,付出的代价可不小。

Transformer 的问题在于它有"二次复杂度",这意味着如果你把输入的大小翻倍,处理输入所需的内存和计算时间就会增加四倍。

这是因为 Transformer 里面有个自我注意机制,它会把输入序列中的每个元素和其他所有元素比较一下。

Meta 的 Megalodon 模型采用了一种新技术,叫做移动平均装备门控注意 (MEGA),这个技术在 2022 年才首次提出。

MEGA 修改了注意机制,大大降低了模型的复杂性,让 LLM 能处理更长的输入,而不会让内存和计算需求暴涨。

MEGA 也用了经过实践检验的指数移动平均 (EMA) 技术,这帮助模型在本地和远距离的令牌之间找到正确的重点。

这就像帮助模型在向上下文窗口输入更多信息时保持其连贯性。

Megalodon

Megalodon 对 MEGA 进行了一些改进,对架构做了一些关键的修改,使其的性能与原始 Transformer 模型中使用的全注意力机制差不多。

Megalodon 还采用了"块式注意力",它把输入序列划分成固定大小的块,这样就把模型的复杂性从二次方降低到线性了。

块式注意力还可以加入一个额外的并行层,加速模型训练。

研究人员在 2 万亿个令牌上训练了一个具有 70 亿参数的 Megalodon 版本,然后和 Llama-2-7B、13B 和其他模型做了个比较。

他们的实验表明,Megalodon-7B 在训练困惑度和下游基准测试中,"明显优于用于训练 LLAMA2-7B 的 Transformer 的最新变种。"

在某些任务中,Megalodon-7B 的性能和 Llama-2-13B 差不多。

在 4,000 令牌的上下文窗口下,Megalodon 的速度比 Llama-2 慢一点,但当上下文长度扩展到 32,000 个令牌时,由于其计算效率,Megalodon 表现就比 Llama-2 强多了。

此外,研究人员还声称,他们的实验结果表明,Megalodon 可以处理无限长度的序列。

研究人员还在其他数据模态的小型和中型实验中取得了不错的结果,他们还计划在后期的工作中把 Megalodon 适应到多模态设置。

研究人员已经把 Megalodon 的代码放到了 GitHub 上,还附带了 MIT 许可,这意味着你可以随便修改,用于商业目的,没有任何限制。

Transformers 还是老大

科学家们一直在找能替代 Transformer 的新架构。

像 Mamba 架构这样的例子值得一提,它现在已经在 AI21 Labs Jamba 中商业化部署。

另一个可能有前途的架构是 液态神经网络,这是一种由 MIT 的研究人员开发的用于处理任何类型序列数据的通用深度学习架构。

但现在,Transformer 还是语言模型的老大。虽然 Meta 正在探索像 Megalodon 这样的新架构,但它还在努力改进其 Transformer 模型,并刚刚发布了 Llama-3,这是其开源 LLM 的最新版本。

Transformer 的竞争对手面临的一个问题是需要硬件和软件工具。现在有一个大型的库和工具生态系统用于训练、微调和定制 Transformer 模型,适用于不同的应用和硬件设备。

同时,研究人员已经开发了优化 Transformer LLM 在内存受限设备上性能的底层软件代码。替代品还需要跟上这些进展。

同时,其他研究人员还在修改 Transformer 架构,以减少其内存和计算需求。例如,Infini-attention,这是 Google 研究人员最近的一篇论文,旨在为 Transformer 模型提供无限的上下文窗口,而不增加内存和计算复杂性。

现在的先进模型可以处理数十万个令牌的输入。

但是,人工智能研究正在快速发展。

当 Transformer 论文在 2017 年发布时,很少有人想到它会产生如此大的影响。

谁知道呢,可能有一个新模型会在自己的游戏中击败 Transformer。

相关推荐
小和尚同志5 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
堆栈future6 小时前
manus终于开放啦
llm·aigc·agent
堆栈future6 小时前
在Mac上10分钟玩转LoRA微调模型
llm·openai·agent
堆栈future7 小时前
学习【北京大学】DeepSeek内部研讨系列: AI Agent与Agentic AI的原理和应用并做分享
llm·agent·deepseek
堆栈future7 小时前
揭秘 Google A2A 协议:赋能智能体协作的未来
llm·agent·mcp
强哥之神7 小时前
英伟达发布 Llama Nemotron Nano 4B:专为边缘 AI 和科研任务优化的高效开源推理模型
人工智能·深度学习·语言模型·架构·llm·transformer·边缘计算
奇舞精选8 小时前
从零搭建企业级RAG知识库问答系统
aigc
陈敬雷-充电了么-CEO兼CTO9 小时前
大模型技术原理 - 基于Transformer的预训练语言模型
人工智能·深度学习·语言模型·自然语言处理·chatgpt·aigc·transformer
墨风如雪10 小时前
AI“读心术”进化:昆仑万维天工奖励模型V2,参数越小,能力越“怪”!
aigc
聚客AI12 小时前
Embedding进化论:从Word2Vec到OpenAI三代模型技术跃迁
人工智能·llm·掘金·日新计划