研一小白读论文记录，计算机视觉，Transformer

Invulnerabl_DL2024-09-14 14:33

论文是IEEE收录的一篇论文《CrossFormer++: A Versatile Vision Transformer Hinging on Cross-Scale Attention》（《基于跨尺度自注意力机制的多功能视觉Transformer》）

泛读完之后最大的感悟有以下几点：

1、文章在实验的结果中呈现了大量的图片和表格，并且对于自己的数据使用了高亮显示，且在括号里还标注了与最好的模型相比，精度提升的具体数值，从而读来一目了然

2、文章使用了大量的不同模型做比对，目前已知的Transformer模型进行了对比试验，对于首先提出的CrossFormer和后来改进的CrossFormer++，作者对比了现存的模型以及文章中提出的两种模型结构，消融实验也是很丰富------是否存在CEL、PGS、ACL等对准确性的影响等等。

（看来优秀论文还是得用数据说话，还得是多种模型对比下来的大量数据结果呀）

附上简单制作的思维导图，希望各路大神能够指点一二，不胜感激！