研一小白读论文记录,计算机视觉,Transformer

论文是IEEE收录的一篇论文《CrossFormer++: A Versatile Vision Transformer Hinging on Cross-Scale Attention》(《基于跨尺度自注意力机制的多功能视觉Transformer》)

泛读完之后最大的感悟有以下几点:

1、文章在实验的结果中呈现了大量的图片和表格,并且对于自己的数据使用了高亮显示,且在括号里还标注了与最好的模型相比,精度提升的具体数值,从而读来一目了然

2、文章使用了大量的不同模型做比对,目前已知的Transformer模型进行了对比试验,对于首先提出的CrossFormer和后来改进的CrossFormer++,作者对比了现存的模型以及文章中提出的两种模型结构,消融实验也是很丰富------是否存在CEL、PGS、ACL等对准确性的影响等等。

(看来优秀论文还是得用数据说话,还得是多种模型对比下来的大量数据结果呀)

附上简单制作的思维导图,希望各路大神能够指点一二,不胜感激!

相关推荐
ZStack开发者社区30 分钟前
首批 | 云轴科技ZStack加入施耐德电气技术本地化创新生态
人工智能·科技·云计算
千宇宙航31 分钟前
闲庭信步使用图像验证平台加速FPGA的开发:第六课——测试图案的FPGA实现
图像处理·计算机视觉·fpga开发
X Y O1 小时前
神经网络初步学习3——数据与损失
人工智能·神经网络·学习
唯创知音1 小时前
玩具语音方案选型决策OTP vs Flash 的成本功耗与灵活性
人工智能·语音识别
Jamence2 小时前
多模态大语言模型arxiv论文略读(151)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
tongxianchao2 小时前
LaCo: Large Language Model Pruning via Layer Collapse
人工智能·语言模型·剪枝
HyperAI超神经2 小时前
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度
人工智能·数据挖掘·数据集·图像生成·医疗健康·在线教程·数学代码
网安INF2 小时前
深度学习中批标准化与神经网络调优
人工智能·深度学习·神经网络·机器学习
开开心心_Every2 小时前
便捷的电脑自动关机辅助工具
开发语言·人工智能·pdf·c#·电脑·音视频·sublime text
EnochChen_2 小时前
多实例学习简介
人工智能