【CoaT】Co-Scale Conv-Attentional Image Transformers 译读笔记

Co-Scale Conv-Attentional Image Transformers

摘要

在本文中,提出了 Co-scale conv-attentional image Transformers(CoaT),它是一种基于Transformer的图像分类器,同时具备 co-scale 和 conv-attentional 机制。首先,同尺度机制(co-scale mechanism)在保持Transformer编码器分支在各个尺度上的完整性的同时,允许在不同尺度上学习到的表示有效地相互通信;本文设计了一系列串行和并行模块来实现同尺度机制。其次,本文提出卷积注意力机制,在因子化注意力模块中以类卷积的高效实现方式引入相对位置嵌入。CoaT赋予图像Transformer更丰富的多尺度与上下文建模能力。在ImageNet数据集上,相对较小的CoaT模型相比于相似规模的CNN和 image/vision Transformers,取得了更优的分类结果。CoaT的主干网络在目标检测和实例分割任务中的有效性也得到了验证,表明其具有广泛的计算机视觉下游任务的适用性。

1 引言

人工智能领域近期的一项显著进展是注意力机制 38_Image Caption 和 Transformer 31 的创造,这项技术已经在多个领域产生了深远的影响,包括自然语言处理7_BERT](https://arxiv.org/abs/1810.04805), [20_GPT1、文档分析 39_LayoutLM、语音识别 8_Speech-Transformer 和计算机视觉9_ViT](https://arxiv.org/abs/2010.11929), [3_DETR。过去,最先进的图像分类器主要建立在 CNN15_document recognition](https://ieeexplore.ieee.org/document/726791), [14_AlexNet](https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf), [27_Inception](https://arxiv.org/abs/1409.4842), [26_VGG](https://arxiv.org/abs/1409.1556), [11_ResNet](https://arxiv.org/abs/1512.03385), [36_ResNeXt之上,通过多层滤波过程完成特征提取。然而,近期的一些研究30_DeiT](https://arxiv.org/abs/2012.12877), [9_ViT 开始显示出基于Transformer的图像分类器也具备令人鼓舞的性能。

本质上,卷积 15_document recognition 和注意力机制 38_Image Caption 都通过对局部内容和上下文进行建模来解决结构化数据(例如图像和文本)的基本表示问题。在CNN中,感受野通过一系列卷积操作逐步扩大。而注意力机制 [38_Image Caption](https://arxiv.org/abs/1502.03044), 31_ 则与卷积不同:(1)在自注意力 31_Transformer] 中,每个位置或token的感受野立即覆盖整个输入空间,因为每个token都会与包括自身在内的所有token进行"匹配";(2)对于每一对token,自注意力通过计算"查询"(待考察的token)与"键"(被匹配的token)之间的点积,来加权"值"(被匹配token的表示)。

此外,尽管卷积和自注意力机制都执行加权求和,但它们的权重计算方式不同:在CNN中,权重在训练过程中学习,但在测试过程中固定不变;在自注意力机制中,权重是根据每对tokens之间的相似性或亲和性动态计算的。

相关推荐
cqbzcsq12 小时前
CellFlow虚拟细胞论文阅读
论文阅读·人工智能·笔记·学习·生物信息
阿米亚波13 小时前
【Windows】QEMU 启动 openEuler aarch64/arm64 架构系统 + 离线软件源
linux·windows·经验分享·笔记·架构·arm
自传.14 小时前
尚硅谷 Vibe Coding|第三章(1) Claude Code深度使用与进阶技巧 学习笔记
笔记·学习·尚硅谷·vibecoding
.千余14 小时前
【C++】模板进阶全解:非类型参数|全特化|偏特化|分离编译完全指南
开发语言·c++·笔记·学习·其他
自传.15 小时前
尚硅谷 Vibe Coding|第二章 AI编程工具生态 学习笔记
笔记·学习·ai编程·尚硅谷·vibe coding
秋波。未央16 小时前
Java Agent 开发 · Day 1 学习笔记(含作业完整标准答案)
java·笔记·学习
中屹指纹浏览器16 小时前
2026指纹浏览器字体指纹、字体渲染偏差检测与全维度虚拟字体池搭建方案
经验分享·笔记
RickyWasYoung17 小时前
经典轮胎模型对比(弦模型、环模型、刷子模型、魔术公式、FTire模型、Unitire模型)
笔记
codexu_46122918717 小时前
NoteGen 里一条记录如何变成 Markdown
前端·笔记·rust·tauri