【论文速看】DL最新进展20240927-目标检测、Transformer

目录

【目标检测】

[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection

论文链接:https://arxiv.org/abs/2406.05755

代码链接:https://github.com/hoiliu-0801/DNTR

尽管计算机视觉领域取得了显著进展,但精确检测微小物体仍然是一个重大挑战,这主要是因为这些物体在图像数据中的像素表示非常微小 。这一挑战在地球科学和遥感领域尤为突出,高保真地检测微小物体可以促进从城市规划到环境监测的各种应用。文中提出了一种新的框架,即DeNoising FPN with Trans R-CNN (DNTR) ,以提升微小物体检测的性能。DNTR由一个易于插入的设计模块DeNoising FPN (DN-FPN)和一个高效的基于Transformer的检测器Trans R-CNN 组成。具体来说,特征金字塔网络中的特征融合对于检测多尺度对象非常重要。然而,由于不同尺度特征之间缺乏正则化,融合过程中可能会产生噪声特征。因此,引入了DN-FPN模块,利用对比学习来抑制FPN自上而下路径中每个层级特征的噪声。其次,基于双阶段框架,用新颖的Trans R-CNN检测器替代了过时的R-CNN检测器,以自注意力机制聚焦于微小物体的表示。实验结果表明,DNTR在AI-TOD数据集上的APvt至少比基线提高了17.4%,在VisDrone数据集上的AP至少提高了9.6%。


[ICLR 2022] FP-DETR: DETECTION TRANSFORMER ADVANCED BY FULLY PRE-TRAINING

论文链接:https://openreview.net/pdf?id=yjMQuLLcGWK

代码链接:https://github.com/encounter1997/FP-DETR

大规模预训练已被证明在下游任务的视觉表示学习中是有效的,尤其是在提高鲁棒性和泛化能力方面。然而,最近开发的检测转换器(detection transformers)只在其主干网络上进行预训练,而关键的组件,即12层转换器,却是从头开始训练的,这阻碍了模型获得上述好处。这种分离的训练范式主要是由于上游和下游任务之间的差异 造成的。为了缓解这个问题,文中提出了FP-DETR ,它对仅编码器的转换器进行全面预训练,并通过任务适配器(task adapter)对其进行平滑微调以用于目标检测。受到自然语言处理中文本提示(textual prompts)成功的启发,将查询位置嵌入视为视觉提示,帮助模型关注目标区域(提示)并识别对象。为此,提出了任务适配器,该适配器利用自注意力来建模对象查询嵌入之间的上下文关系。在具有挑战性的COCO数据集上的实验表明,FP-DETR实现了有竞争力的性能。此外,与最先进的检测转换器相比,它在抵御常见干扰和对小型数据集的泛化方面表现更好。


【Transformer】

[ICML 2024] SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接:https://arxiv.org/abs/2405.11582

代码链接:https://github.com/xinghaochen/SLAB

Transformers 已成为自然语言和计算机视觉任务的基础架构。然而,高计算成本使其在资源受限的设备上部署变得相当具有挑战性。本文研究了高效 Transformer 的计算瓶颈模块,即归一化层和注意力模块 。LayerNorm 通常用于 Transformer 架构中,但由于推理期间的统计计算,其计算效率并不友好。然而,用更高效的 BatchNorm 替换 Transformer 中的 LayerNorm 往往会导致性能下降和训练崩溃。为了解决这个问题,文中提出了一种名为 PRepBN 的新方法,以在训练过程中逐步用重参数化的 BatchNorm 替换 LayerNorm。此外,还提出了一个简化的线性注意力(SLA)模块,该模块简单但有效,能够实现强大的性能。广泛的图像分类和目标检测实验证明了提出方法的有效性。例如,SLAB-Swin 在 ImageNet-1K 上的 top-1 准确率达到了 83.6%,延迟为 16.2ms,比 Flatten-Swin 减少了 2.4ms,并且准确率提高了 0.1%。还评估了该方法在语言建模任务中的表现,并获得了相当的性能。


[CVPR 2024] ViTamin: Designing Scalable Vision Models in the Vision-Language Era

论文链接:https://arxiv.org/abs/2404.02132

代码链接:https://github.com/Beckschen/ViTamin

近期在视觉-语言模型(VLMs)方面的突破为视觉社区开启了新的篇章。与基于 ImageNet 预训练的模型相比,VLMs 提供了更强且更具泛化性的特征嵌入,这归功于其在大规模互联网图像-文本对 上进行的训练。然而,尽管 VLMs 取得了令人惊叹的成就,传统的视觉变换器(ViTs)仍然是图像编码的默认选择。尽管纯变换器在文本编码领域证明了其有效性,但在图像编码方面是否同样适用仍然存疑,尤其是考虑到在 ImageNet 基准测试中提出了各种类型的网络,遗憾的是这些网络在 VLMs 中很少被研究。由于数据/模型规模较小,ImageNet 上的原始模型设计结论可能受到限制和偏见。本文旨在构建一个在对比语言-图像预训练(CLIP)框架下的视觉模型评估协议 。文中提供了一种全面的方法来评估不同的视觉模型,涵盖它们的零样本性能以及在模型和训练数据大小方面的可扩展性。为此,作者引入了 ViTamin ,一种专为 VLMs 量身定制的新视觉模型。在使用相同的公开可用 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时,ViTamin-L 的 ImageNet 零样本准确率显著优于 ViT-L,提高了 2.0%。ViTamin-L 在包括分类、检索、开放词汇检测和分割在内的 60 个多样化基准测试中呈现了有希望的结果,并适用于大型多模态模型。当进一步扩展模型规模时, ViTamin-XL 仅有 436M 参数,达到了 82.9% 的 ImageNet 零样本准确率,超过了拥有十倍更多参数(4.4B)的 EVA-E 所达到的 82.0%。


相关推荐
IT猿手8 分钟前
2025高维多目标优化:基于导航变量的多目标粒子群优化算法(NMOPSO)的无人机三维路径规划,MATLAB代码
开发语言·人工智能·算法·机器学习·matlab·无人机·cocos2d
橙子小哥的代码世界17 分钟前
【机器学习】【KMeans聚类分析实战】用户分群聚类详解——SSE、CH 指数、SC全解析,实战电信客户分群案例
人工智能·python·机器学习·kmeans·数据科学·聚类算法·肘部法
k layc22 分钟前
【论文解读】《Training Large Language Models to Reason in a Continuous Latent Space》
人工智能·python·机器学习·语言模型·自然语言处理·大模型推理
代码猪猪傻瓜coding31 分钟前
【模块】 ASFF 模块
人工智能·深度学习
阿正的梦工坊36 分钟前
Sliding Window Attention(滑动窗口注意力)解析: Pytorch实现并结合全局注意力(Global Attention )
人工智能·pytorch·python
rgb2gray1 小时前
GeoHD - 一种用于智慧城市热点探测的Python工具箱
人工智能·python·智慧城市
火车叼位1 小时前
5个Why、SWOT, 5W2H等方法论总结,让你的提示词更加精炼
人工智能
阿正的梦工坊1 小时前
PyTorch下三角矩阵生成函数torch.tril的深度解析
人工智能·pytorch·矩阵
说私域2 小时前
电商运营中私域流量的转化与变现:以开源AI智能名片2+1链动模式S2B2C商城小程序为例
人工智能·小程序·开源·流量运营
老A的AI实验室2 小时前
通俗理解Test time Scaling Law、RL Scaling Law和预训练Scaling Law
人工智能·深度学习·算法·chatgpt·llm·agi·rl