《CounTR: Transformer-based Generalised Visual Counting》CVPR2023本论文考虑了通用视觉对象计数问题,目标是开发一个计算模型,用于计算任意语义类别的对象数量,使用任意数量的“样本”(即可能为零样本或少样本计数)。作者提出了一个新颖的基于Transformer的架构,称为Counting TRansformer(CounTR),它通过注意力机制显式捕获图像块之间的相似性或与给定“样本”的相似性。此外,作者采用了两阶段训练机制,首先通过自监督学习预训练模型,然后进行有监督的微调。作者还提出了一个简单、可扩展的流程来合成训练图像,这些图像包含大量实例或来自不同语义类别,明确迫使