前两天,科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章,名字就叫"Meta 携 Megalodon LLM 挑战 Transformer 架构"。
这篇文章就是聊聊Meta用的这个叫Megalodon LLM巨齿鲨的大模型,说是它能节省内存,还挑战Transformer架构呢。咱们一起来看看文章都讲了啥。
由 Meta 和 南加利福尼亚大学 的那些聪明的研究人员提出了一种新的机器学习 (ML) 模型,它的目标就是解决 Transformer 架构的一些棘手问题。
这个 Transformer 架构,是一种深度学习架构,催生了大型语言模型 (LLMs) 的新时代。
这个新模型叫 Megalodon(巨齿鲨),它可以让语言模型把处理的上下文窗口扩展到数百万个令牌,而不会把你的内存塞满。
实验室的数据显示,Megalodon 在处理大量文本的表现比同类型大小的 Transformer 模型还要强。Megalodon 是一系列新模型中的最新一款,被看作 Transformer 的新接班人。
长上下文窗口
"上下文窗口"这个词,其实就是模型一次能处理的令牌数量。如果上下文窗口变大,LLMs 就能进行更长时间的对话,处理更长的文档,学习的东西也更多。
但是,要想把 Transformer 的上下文窗口扩大,付出的代价可不小。
Transformer 的问题在于它有"二次复杂度",这意味着如果你把输入的大小翻倍,处理输入所需的内存和计算时间就会增加四倍。
这是因为 Transformer 里面有个自我注意机制,它会把输入序列中的每个元素和其他所有元素比较一下。
Meta 的 Megalodon 模型采用了一种新技术,叫做移动平均装备门控注意 (MEGA),这个技术在 2022 年才首次提出。
MEGA 修改了注意机制,大大降低了模型的复杂性,让 LLM 能处理更长的输入,而不会让内存和计算需求暴涨。
MEGA 也用了经过实践检验的指数移动平均 (EMA) 技术,这帮助模型在本地和远距离的令牌之间找到正确的重点。
这就像帮助模型在向上下文窗口输入更多信息时保持其连贯性。
Megalodon
Megalodon 对 MEGA 进行了一些改进,对架构做了一些关键的修改,使其的性能与原始 Transformer 模型中使用的全注意力机制差不多。
Megalodon 还采用了"块式注意力",它把输入序列划分成固定大小的块,这样就把模型的复杂性从二次方降低到线性了。
块式注意力还可以加入一个额外的并行层,加速模型训练。
研究人员在 2 万亿个令牌上训练了一个具有 70 亿参数的 Megalodon 版本,然后和 Llama-2-7B、13B 和其他模型做了个比较。
他们的实验表明,Megalodon-7B 在训练困惑度和下游基准测试中,"明显优于用于训练 LLAMA2-7B 的 Transformer 的最新变种。"
在某些任务中,Megalodon-7B 的性能和 Llama-2-13B 差不多。
在 4,000 令牌的上下文窗口下,Megalodon 的速度比 Llama-2 慢一点,但当上下文长度扩展到 32,000 个令牌时,由于其计算效率,Megalodon 表现就比 Llama-2 强多了。
此外,研究人员还声称,他们的实验结果表明,Megalodon 可以处理无限长度的序列。
研究人员还在其他数据模态的小型和中型实验中取得了不错的结果,他们还计划在后期的工作中把 Megalodon 适应到多模态设置。
研究人员已经把 Megalodon 的代码放到了 GitHub 上,还附带了 MIT 许可,这意味着你可以随便修改,用于商业目的,没有任何限制。
Transformers 还是老大
科学家们一直在找能替代 Transformer 的新架构。
像 Mamba 架构这样的例子值得一提,它现在已经在 AI21 Labs Jamba 中商业化部署。
另一个可能有前途的架构是 液态神经网络,这是一种由 MIT 的研究人员开发的用于处理任何类型序列数据的通用深度学习架构。
但现在,Transformer 还是语言模型的老大。虽然 Meta 正在探索像 Megalodon 这样的新架构,但它还在努力改进其 Transformer 模型,并刚刚发布了 Llama-3,这是其开源 LLM 的最新版本。
Transformer 的竞争对手面临的一个问题是需要硬件和软件工具。现在有一个大型的库和工具生态系统用于训练、微调和定制 Transformer 模型,适用于不同的应用和硬件设备。
同时,研究人员已经开发了优化 Transformer LLM 在内存受限设备上性能的底层软件代码。替代品还需要跟上这些进展。
同时,其他研究人员还在修改 Transformer 架构,以减少其内存和计算需求。例如,Infini-attention,这是 Google 研究人员最近的一篇论文,旨在为 Transformer 模型提供无限的上下文窗口,而不增加内存和计算复杂性。
现在的先进模型可以处理数十万个令牌的输入。
但是,人工智能研究正在快速发展。
当 Transformer 论文在 2017 年发布时,很少有人想到它会产生如此大的影响。
谁知道呢,可能有一个新模型会在自己的游戏中击败 Transformer。