【CoaT】Co-Scale Conv-Attentional Image Transformers 译读笔记

Co-Scale Conv-Attentional Image Transformers

摘要

在本文中,提出了 Co-scale conv-attentional image Transformers(CoaT),它是一种基于Transformer的图像分类器,同时具备 co-scale 和 conv-attentional 机制。首先,同尺度机制(co-scale mechanism)在保持Transformer编码器分支在各个尺度上的完整性的同时,允许在不同尺度上学习到的表示有效地相互通信;本文设计了一系列串行和并行模块来实现同尺度机制。其次,本文提出卷积注意力机制,在因子化注意力模块中以类卷积的高效实现方式引入相对位置嵌入。CoaT赋予图像Transformer更丰富的多尺度与上下文建模能力。在ImageNet数据集上,相对较小的CoaT模型相比于相似规模的CNN和 image/vision Transformers,取得了更优的分类结果。CoaT的主干网络在目标检测和实例分割任务中的有效性也得到了验证,表明其具有广泛的计算机视觉下游任务的适用性。

1 引言

人工智能领域近期的一项显著进展是注意力机制 [38_Image Caption] 和 Transformer [31] 的创造,这项技术已经在多个领域产生了深远的影响,包括自然语言处理[7_BERT, 20_GPT1]、文档分析 [39_LayoutLM]、语音识别 [8_Speech-Transformer] 和计算机视觉[9_ViT, 3_DETR]。过去,最先进的图像分类器主要建立在 CNN[15_document recognition, 14_AlexNet, 27_Inception, 26_VGG, 11_ResNet, 36_ResNeXt]之上,通过多层滤波过程完成特征提取。然而,近期的一些研究[30_DeiT, 9_ViT] 开始显示出基于Transformer的图像分类器也具备令人鼓舞的性能。

本质上,卷积 [15_document recognition] 和注意力机制 [38_Image Caption] 都通过对局部内容和上下文进行建模来解决结构化数据(例如图像和文本)的基本表示问题。在CNN中,感受野通过一系列卷积操作逐步扩大。而注意力机制 [38_Image Caption, 31_] 则与卷积不同:(1)在自注意力 31_Transformer] 中,每个位置或token的感受野立即覆盖整个输入空间,因为每个token都会与包括自身在内的所有token进行"匹配";(2)对于每一对token,自注意力通过计算"查询"(待考察的token)与"键"(被匹配的token)之间的点积,来加权"值"(被匹配token的表示)。

此外,尽管卷积和自注意力机制都执行加权求和,但它们的权重计算方式不同:在CNN中,权重在训练过程中学习,但在测试过程中固定不变;在自注意力机制中,权重是根据每对tokens之间的相似性或亲和性动态计算的。

相关推荐
小陈phd1 小时前
TensorRT 入门完全指南(一)——从核心定义到生态工具全解析
人工智能·笔记
是上好佳佳佳呀1 小时前
【前端(十一)】JavaScript 语法基础笔记(多语言对比)
前端·javascript·笔记
handler012 小时前
Linux 内核剖析:进程优先级、上下文切换与 O(1) 调度算法
linux·运维·c语言·开发语言·c++·笔记·算法
其实防守也摸鱼3 小时前
CTF密码学综合教学指南--第四章
网络·笔记·安全·网络安全·密码学·ctf
05候补工程师4 小时前
【ROS 2 具身智能】Gazebo 仿真避坑指南:从“幽灵机器人”到传感器数据流打通
人工智能·经验分享·笔记·ubuntu·机器人
chushiyunen4 小时前
pandas使用笔记、数据清洗、json_normalize
笔记·pandas
HERR_QQ4 小时前
端到端课程自用 4 规划 基于自规划AR的端到端规划 AI 笔记
人工智能·笔记·自动驾驶·transformer
二哈赛车手5 小时前
新人笔记---实现简易版的rag的bm25检索(利用ES),以及RAG上传时的ES与向量数据库双写
java·数据库·笔记·spring·elasticsearch·ai
qiaozhangchi5 小时前
求解器学习笔记
笔记·python·学习
不会编程的懒洋洋5 小时前
C# P/Invoke 基础
开发语言·c++·笔记·安全·机器学习·c#·p/invoke