前两天，科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章，名字就叫"Meta 携 Megalodon LLM 挑战 Transformer 架构"。

这篇文章就是聊聊Meta用的这个叫Megalodon LLM巨齿鲨的大模型，说是它能节省内存，还挑战Transformer架构呢。咱们一起来看看文章都讲了啥。

由 Meta 和南加利福尼亚大学的那些聪明的研究人员提出了一种新的机器学习 (ML) 模型，它的目标就是解决 Transformer 架构的一些棘手问题。

这个 Transformer 架构，是一种深度学习架构，催生了大型语言模型 (LLMs) 的新时代。

这个新模型叫 Megalodon（巨齿鲨），它可以让语言模型把处理的上下文窗口扩展到数百万个令牌，而不会把你的内存塞满。

实验室的数据显示，Megalodon 在处理大量文本的表现比同类型大小的 Transformer 模型还要强。Megalodon 是一系列新模型中的最新一款，被看作 Transformer 的新接班人。

长上下文窗口

"上下文窗口"这个词，其实就是模型一次能处理的令牌数量。如果上下文窗口变大，LLMs 就能进行更长时间的对话，处理更长的文档，学习的东西也更多。

但是，要想把 Transformer 的上下文窗口扩大，付出的代价可不小。

Transformer 的问题在于它有"二次复杂度"，这意味着如果你把输入的大小翻倍，处理输入所需的内存和计算时间就会增加四倍。

这是因为 Transformer 里面有个自我注意机制，它会把输入序列中的每个元素和其他所有元素比较一下。

Meta 的 Megalodon 模型采用了一种新技术，叫做移动平均装备门控注意 (MEGA)，这个技术在 2022 年才首次提出。

MEGA 修改了注意机制，大大降低了模型的复杂性，让 LLM 能处理更长的输入，而不会让内存和计算需求暴涨。

MEGA 也用了经过实践检验的指数移动平均 (EMA) 技术，这帮助模型在本地和远距离的令牌之间找到正确的重点。

这就像帮助模型在向上下文窗口输入更多信息时保持其连贯性。

Megalodon

Megalodon 对 MEGA 进行了一些改进，对架构做了一些关键的修改，使其的性能与原始 Transformer 模型中使用的全注意力机制差不多。

Megalodon 还采用了"块式注意力"，它把输入序列划分成固定大小的块，这样就把模型的复杂性从二次方降低到线性了。

块式注意力还可以加入一个额外的并行层，加速模型训练。

研究人员在 2 万亿个令牌上训练了一个具有 70 亿参数的 Megalodon 版本，然后和 Llama-2-7B、13B 和其他模型做了个比较。

他们的实验表明，Megalodon-7B 在训练困惑度和下游基准测试中，"明显优于用于训练 LLAMA2-7B 的 Transformer 的最新变种。"

在某些任务中，Megalodon-7B 的性能和 Llama-2-13B 差不多。

在 4,000 令牌的上下文窗口下，Megalodon 的速度比 Llama-2 慢一点，但当上下文长度扩展到 32,000 个令牌时，由于其计算效率，Megalodon 表现就比 Llama-2 强多了。

此外，研究人员还声称，他们的实验结果表明，Megalodon 可以处理无限长度的序列。

研究人员还在其他数据模态的小型和中型实验中取得了不错的结果，他们还计划在后期的工作中把 Megalodon 适应到多模态设置。

研究人员已经把 Megalodon 的代码放到了 GitHub 上，还附带了 MIT 许可，这意味着你可以随便修改，用于商业目的，没有任何限制。

科学家们一直在找能替代 Transformer 的新架构。

像 Mamba 架构这样的例子值得一提，它现在已经在 AI21 Labs Jamba 中商业化部署。

另一个可能有前途的架构是液态神经网络，这是一种由 MIT 的研究人员开发的用于处理任何类型序列数据的通用深度学习架构。

但现在，Transformer 还是语言模型的老大。虽然 Meta 正在探索像 Megalodon 这样的新架构，但它还在努力改进其 Transformer 模型，并刚刚发布了 Llama-3，这是其开源 LLM 的最新版本。

Transformer 的竞争对手面临的一个问题是需要硬件和软件工具。现在有一个大型的库和工具生态系统用于训练、微调和定制 Transformer 模型，适用于不同的应用和硬件设备。

同时，研究人员已经开发了优化 Transformer LLM 在内存受限设备上性能的底层软件代码。替代品还需要跟上这些进展。

同时，其他研究人员还在修改 Transformer 架构，以减少其内存和计算需求。例如，Infini-attention，这是 Google 研究人员最近的一篇论文，旨在为 Transformer 模型提供无限的上下文窗口，而不增加内存和计算复杂性。

现在的先进模型可以处理数十万个令牌的输入。

但是，人工智能研究正在快速发展。

当 Transformer 论文在 2017 年发布时，很少有人想到它会产生如此大的影响。

谁知道呢，可能有一个新模型会在自己的游戏中击败 Transformer。