Meta出招了!Megalodon LLM对Transformer架构发起挑战!

前两天,科技新闻网站VentureBeat上放出了Ben Dickson的一篇文章,名字就叫"Meta 携 Megalodon LLM 挑战 Transformer 架构"。

这篇文章就是聊聊Meta用的这个叫Megalodon LLM巨齿鲨的大模型,说是它能节省内存,还挑战Transformer架构呢。咱们一起来看看文章都讲了啥。

由 Meta 和 南加利福尼亚大学 的那些聪明的研究人员提出了一种新的机器学习 (ML) 模型,它的目标就是解决 Transformer 架构的一些棘手问题。

这个 Transformer 架构,是一种深度学习架构,催生了大型语言模型 (LLMs) 的新时代。

这个新模型叫 Megalodon(巨齿鲨),它可以让语言模型把处理的上下文窗口扩展到数百万个令牌,而不会把你的内存塞满。

实验室的数据显示,Megalodon 在处理大量文本的表现比同类型大小的 Transformer 模型还要强。Megalodon 是一系列新模型中的最新一款,被看作 Transformer 的新接班人。

长上下文窗口

"上下文窗口"这个词,其实就是模型一次能处理的令牌数量。如果上下文窗口变大,LLMs 就能进行更长时间的对话,处理更长的文档,学习的东西也更多。

但是,要想把 Transformer 的上下文窗口扩大,付出的代价可不小。

Transformer 的问题在于它有"二次复杂度",这意味着如果你把输入的大小翻倍,处理输入所需的内存和计算时间就会增加四倍。

这是因为 Transformer 里面有个自我注意机制,它会把输入序列中的每个元素和其他所有元素比较一下。

Meta 的 Megalodon 模型采用了一种新技术,叫做移动平均装备门控注意 (MEGA),这个技术在 2022 年才首次提出。

MEGA 修改了注意机制,大大降低了模型的复杂性,让 LLM 能处理更长的输入,而不会让内存和计算需求暴涨。

MEGA 也用了经过实践检验的指数移动平均 (EMA) 技术,这帮助模型在本地和远距离的令牌之间找到正确的重点。

这就像帮助模型在向上下文窗口输入更多信息时保持其连贯性。

Megalodon

Megalodon 对 MEGA 进行了一些改进,对架构做了一些关键的修改,使其的性能与原始 Transformer 模型中使用的全注意力机制差不多。

Megalodon 还采用了"块式注意力",它把输入序列划分成固定大小的块,这样就把模型的复杂性从二次方降低到线性了。

块式注意力还可以加入一个额外的并行层,加速模型训练。

研究人员在 2 万亿个令牌上训练了一个具有 70 亿参数的 Megalodon 版本,然后和 Llama-2-7B、13B 和其他模型做了个比较。

他们的实验表明,Megalodon-7B 在训练困惑度和下游基准测试中,"明显优于用于训练 LLAMA2-7B 的 Transformer 的最新变种。"

在某些任务中,Megalodon-7B 的性能和 Llama-2-13B 差不多。

在 4,000 令牌的上下文窗口下,Megalodon 的速度比 Llama-2 慢一点,但当上下文长度扩展到 32,000 个令牌时,由于其计算效率,Megalodon 表现就比 Llama-2 强多了。

此外,研究人员还声称,他们的实验结果表明,Megalodon 可以处理无限长度的序列。

研究人员还在其他数据模态的小型和中型实验中取得了不错的结果,他们还计划在后期的工作中把 Megalodon 适应到多模态设置。

研究人员已经把 Megalodon 的代码放到了 GitHub 上,还附带了 MIT 许可,这意味着你可以随便修改,用于商业目的,没有任何限制。

Transformers 还是老大

科学家们一直在找能替代 Transformer 的新架构。

像 Mamba 架构这样的例子值得一提,它现在已经在 AI21 Labs Jamba 中商业化部署。

另一个可能有前途的架构是 液态神经网络,这是一种由 MIT 的研究人员开发的用于处理任何类型序列数据的通用深度学习架构。

但现在,Transformer 还是语言模型的老大。虽然 Meta 正在探索像 Megalodon 这样的新架构,但它还在努力改进其 Transformer 模型,并刚刚发布了 Llama-3,这是其开源 LLM 的最新版本。

Transformer 的竞争对手面临的一个问题是需要硬件和软件工具。现在有一个大型的库和工具生态系统用于训练、微调和定制 Transformer 模型,适用于不同的应用和硬件设备。

同时,研究人员已经开发了优化 Transformer LLM 在内存受限设备上性能的底层软件代码。替代品还需要跟上这些进展。

同时,其他研究人员还在修改 Transformer 架构,以减少其内存和计算需求。例如,Infini-attention,这是 Google 研究人员最近的一篇论文,旨在为 Transformer 模型提供无限的上下文窗口,而不增加内存和计算复杂性。

现在的先进模型可以处理数十万个令牌的输入。

但是,人工智能研究正在快速发展。

当 Transformer 论文在 2017 年发布时,很少有人想到它会产生如此大的影响。

谁知道呢,可能有一个新模型会在自己的游戏中击败 Transformer。

相关推荐
微学AI8 小时前
GPU算力平台|在GPU算力平台部署MedicalGPT医疗大模型的应用教程
大模型·llm·gpu算力
祯民11 小时前
两年工作之余,我在清华大学出版社出版了一本 AI 应用书籍
前端·aigc
浪遏13 小时前
Langchain.js | Memory | LLM 也有记忆😋😋😋
前端·llm·aigc
AI小欧同学18 小时前
【AIGC提示词系统】赛博朋克·韵律:一个融合科技与艺术的对话系统设计
科技·aigc
孟健1 天前
重磅首发:国产AI编程助手Trae实测!免费用上Claude是什么体验?
前端·aigc·visual studio code
SpikeKing1 天前
LLM - 大模型 ScallingLaws 的指导模型设计与实验环境(PLM) 教程(4)
人工智能·llm·transformer·plm·scalinglaws
好评笔记2 天前
AIGC视频扩散模型新星:Video 版本的SD模型
论文阅读·深度学习·机器学习·计算机视觉·面试·aigc·transformer
一 铭2 天前
《Hands_On_LLM》8.2 RAG: 利用语言模型进行语义搜索(Semantic Search with Language Models)
人工智能·语言模型·大模型·llm
AIGC大时代2 天前
方法建议ChatGPT提示词分享
人工智能·深度学习·chatgpt·aigc·ai写作
正在走向自律2 天前
AI 写作(六):核心技术与多元应用(6/10)
人工智能·aigc·ai写作