深度学习高效性网络

为了减轻Transformer笨重的计算成本,一系列工作重点开发了高效的Vision Transformer,如Swin Transformer、PVT、Twins、CoAtNet和MobileViT。

1、字节TRT-ViT

兼具CNN的速度、Transformer精度的模型

TRT-ViT(Transformer-based Vision Transformer)是一个结合了Transformer和ViT的模型,旨在同时利用CNN和Transformer的优点,以实现更高的性能和效率。TRT-ViT将CNN作为ViT的一部分,从而实现了在速度和精度之间的平衡。

TRT-ViT的核心思想是将CNN的局部性和Transformer的全局性相结合。具体来说,TRT-ViT使用CNN提取图像的局部特征,然后将这些特征作为Transformer的输入。这样,模型可以同时捕捉图像的局部信息和全局信息,从而实现更好的性能。

TRT-ViT的另一个关键特点是其高效性。由于它结合了CNN和Transformer的优点,因此在训练和推理过程中具有较高的效率。此外,TRT-ViT还采用了一些技术来减少计算量和内存消耗,以实现更高效的模型。

在实际应用中,TRT-ViT可以广泛应用于计算机视觉任务,如图像分类、目标检测和语义分割等。通过将CNN和Transformer相结合,TRT-ViT可以在速度和精度之间取得更好的平衡,从而满足不同任务的需求。

2、EfficientFormer

EfficientFormer: Vision Transformers at MobileNet Speed,在IPhone12的推理延迟仅为1.6 ms

3、AdaptFormer

概念简单但有效的框架AdaptFormer,用于有效地将预训练的视觉Transformer(ViT)主干迁移到可伸缩的视觉识别任务。通过引入AdaptMLP,本文的AdaptFormer能够调整轻量级模块,以生成适应多个下游任务的特征。

4、Auto-scaling Vision Transformers

As-ViT(Auto-scaling Vision Transformers),这是一个无需训练的 ViT 自动扩展框架,它能以高效且有原则的方式自动设计和扩展 ViT。

5、MSG-Transformer

面向高分辨率的ViT框架:华为、华中科技大学联合提出了一种全新的信使Token来实现灵活而高效的局部信息交互。在MSG-Transformer中,信使Token负责提取每一个局部区域的信息,并与其他信使token进行交换,然后将交换后的信息传递回对应的区域。利用信使token进行信息交换有极高的灵活度,在高分辨场景有很大的潜力。

MSG Transformer引入的MSG token对计算量和模型参数都影响不大,所以其和Swin Transformer一样其计算复杂度线性于图像大小。在ImageNet上,其模型效果和Swin接近,但其在CPU上速度较快。在COCO数据集上,基于Mask R-CNN模型,也可以和Swin模型取得类似的效果。此外,信使Token的机制在建模时间信息上也有着明显优势,相信该机制在未来Transformer结构设计中能够带来更多的启发。

相关推荐
电子科技圈40 分钟前
SmartDV展示完整的边缘与连接IP解决方案,以高速和低功耗特性赋能移动、物联网和媒体处理设备创新
人工智能·嵌入式硬件·mcu·物联网·智能家居·智能硬件·iot
Rubin智造社1 小时前
04月17日AI每日参考:Claude Opus 4.7正式发布,智元机器人大会今日开幕
大数据·人工智能·机器学习·claude code·智元机器人·deepseek v4·claude opus 4.7
Raink老师8 小时前
【AI面试临阵磨枪】详细解释 Transformer 架构的核心组件与工作流程。
人工智能·深度学习·transformer·ai 面试·ai 应用开发
qcx238 小时前
【AI Agent实战】OpenClaw 安全加固完全指南:安全攻击手段与五步防护实践(2026最新)
人工智能·安全
AnnyYoung8 小时前
单细胞转录组+空间转录组+深度学习的意义
深度学习·数据分析
码农小白AI9 小时前
AI报告审核进入技术驱动时代:IACheck如何从规则引擎走向深度学习,构建检测报告审核“技术矩阵”
人工智能·深度学习
song150265372989 小时前
视觉检测设备:自动识别缺陷、尺寸、瑕疵、装配错误,一键全检
人工智能·计算机视觉·视觉检测
智能化咨询9 小时前
(163页PPT)某著名企业K3生产制造售前营销指导方案P164(附下载方式)
大数据·人工智能
Zzj_tju9 小时前
大语言模型技术指南:SFT、RLHF、DPO 怎么串起来?对齐训练与关键参数详解
人工智能·深度学习·语言模型
金智维科技官方9 小时前
RPA技术赋能电信运营商话单稽核:金智维如何驱动高精度自动化转型
人工智能·自动化·数字化·rpa·智能体·电信