研一小白读论文记录,计算机视觉,Transformer

论文是IEEE收录的一篇论文《CrossFormer++: A Versatile Vision Transformer Hinging on Cross-Scale Attention》(《基于跨尺度自注意力机制的多功能视觉Transformer》)

泛读完之后最大的感悟有以下几点:

1、文章在实验的结果中呈现了大量的图片和表格,并且对于自己的数据使用了高亮显示,且在括号里还标注了与最好的模型相比,精度提升的具体数值,从而读来一目了然

2、文章使用了大量的不同模型做比对,目前已知的Transformer模型进行了对比试验,对于首先提出的CrossFormer和后来改进的CrossFormer++,作者对比了现存的模型以及文章中提出的两种模型结构,消融实验也是很丰富------是否存在CEL、PGS、ACL等对准确性的影响等等。

(看来优秀论文还是得用数据说话,还得是多种模型对比下来的大量数据结果呀)

附上简单制作的思维导图,希望各路大神能够指点一二,不胜感激!

相关推荐
小雨青年4 分钟前
GitHub Copilot 上下文工程:让 AI 编程更接近真实项目
人工智能·github·copilot
KIO no way4 分钟前
AI内容编排是什么_聊聊CSDN_AI数字营销背后的分发逻辑
android·人工智能
环球科讯4 分钟前
广东省茂名市:普惠金融畅流通,建行助力商贸兴
大数据·人工智能
一切皆是因缘际会6 分钟前
神经符号融合智能体
大数据·数据结构·人工智能·ai
武子康8 分钟前
调查研究-173 MOSS-TTS 调查:开源 TTS 正在从“朗读器“走向声音生成系统
人工智能·ai·chatgpt·claude·tts·minimax
2401_840759768 分钟前
2026年前端框架生态与AI开发新趋势
前端·人工智能·科技
诺***帝15 分钟前
GPT-Image-2构图逻辑解析:2026年五层提示词公式实测
人工智能·gpt
qdprobot15 分钟前
AIcam智能ESP32视觉摄像头体识万物
人工智能·esp32s3·图形化编程·mcp·mixly小智ai
林三的日常15 分钟前
一周AI核弹级热点
人工智能·搜索引擎