LSTM卷土重来之Vision-LSTM横空出世!!

在Transformer诞生三年后,谷歌将这一自然语言处理的重要研究扩展到了视觉领域,也就是Vision Transformer。

GPT-4o深夜发布!Plus免费可用!https://www.zhihu.com/pin/1773645611381747712

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952

随后,ViT被广泛用作计算机视觉中的通用骨干。

这种跨界应用同样适用于最近发布的xLSTM。

享誉数十年的LSTM最近被扩展为一个可扩展且性能优良的架构------xLSTM,通过指数门控和可并行化的矩阵内存结构克服了LSTM长期存在的限制。

现在,这一成果已经扩展到视觉领域。

在最近的论文中,Sepp Hochreiter等人推出了Vision-LSTM(ViL)。ViL包含一系列xLSTM块,其中奇数块从上到下处理补丁token序列,偶数块则从下到上处理。

作者希望新架构能够撼动Transformer在语言模型领域的统治地位。

「我们的新架构优于基于SSM的视觉架构,也优于ImageNet-1K分类中的优化ViT模型。值得注意的是,在公平的比较中,ViL的表现优于经过多年超参数调整和Transformer改进的ViT训练pipeline。」

对于需要高分辨率图像以获得最佳性能的任务,如语义分割或医学成像,ViL极具应用潜力。

在这些情况下,Transformer因自注意力的二次复杂性而导致计算成本较高,而ViL的线性复杂性不存在这种问题。

Vision-LSTM(ViL)是一个用于计算机视觉任务的通用骨干,它基于xLSTM块的残差构建。

与ViT类似,ViL首先通过共享线性投影将图像分割成非重叠的补丁,然后向每个补丁token添加可学习的定位嵌入。

ViL的核心是交替的mLSTM块,这些块是完全可并行化的,并配备了矩阵内存和协方差更新规则。

奇数mLSTM块从左上到右下处理补丁token,而偶数块则从右下到左上处理。

研究团队在ImageNet-1K上进行了实验:该数据集包含130万张训练图像和5万张验证图像,每张图像属于1000个类别之一。

对比实验集中在使用序列建模骨干的模型上,这些模型在参数数量大致相当的情况下是可比较的。

他们在224x224分辨率上训练ViL模型,使用余弦衰减调度,1e-3的学习率训练了800个周期(tiny, tiny+)或400个周期(small, small+, base)。

该团队还探索了四向设计,这指的是按行(两个方向)和按列(两个方向)遍历序列。双向仅按行遍历序列(两个方向)。

ViL 块的不同方式:

  • 普通且单向的 xLSTM 块未能达到期待的性能,因为 xLSTM 的自回归性质并不适合图像分类。

  • 以双向方式遍历块 ------ 即在每个块中引入第二个 mLSTM 层,该层向后遍历序列(类似于 Vim),提高了性能,但也需要更多的参数和 FLOPS。

  • 共享前向和后向 mLSTM 的参数使模型在参数上更高效,但仍然需要更多的计算并超载这些参数,而这最终也会导致性能下降。

  • 使用交替块在保持计算和参数效率的同时提高了性能。

更多研究细节,请参考原论文。

推荐阅读:

如何免费使用GPT-4o?如何升级GPT...

新架构Mamba-2正式发布!!真实版"man, what can i say"!!

黎曼猜想取得重大进展!!

相关推荐
骑猪兜风2332 分钟前
谷歌 AI IDE Antigravity 系统提示词分析
人工智能·ai编程·ai ide·gemini3·谷歌gemini3·antigravity
Jing_jing_X10 分钟前
ChatGPT 四种模式:普通对话、推理思考、深度研究、学习模式有什么区别?
人工智能·学习·chatgpt
汀、人工智能11 分钟前
AI Compass前沿速览:Gemini 3、Grok 4.1、GPT-5.1、千问、Lumine-3D开世界AI智能体
人工智能·gemini 3·grok4.1·gpt 5.1
用户51914958484511 分钟前
利用配置错误的postMessage()函数实现DOM型XSS攻击
人工智能·aigc
Valueyou2427 分钟前
引入基于加权 IoU 的 WiseIoU 回归损失以提升 CT 图像检测鲁棒性
人工智能·python·深度学习·目标检测
BestSongC33 分钟前
基于VUE和FastAPI的行人目标检测系统
vue.js·人工智能·yolo·目标检测·fastapi
这张生成的图像能检测吗39 分钟前
(论文速读)SpiralMLP:一个轻量级的视觉MLP架构
图像处理·人工智能·深度学习·计算机视觉·mlp框架·分类、检测、分割
doubao3640 分钟前
如何在海量文献中高效筛选有价值信息
人工智能·学习·自然语言处理·aigc·ai工具·ai检索
执笔论英雄40 分钟前
【大模型训练】MTPLossLoggingHelper中get_tensor_and_context_parallel_group使用
人工智能·深度学习
美团技术团队40 分钟前
美团 LongCat Interaction 团队发布大模型交互系统技术报告 WOWService
人工智能