论文阅读——RemoteCLIP

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing

摘要------通用基础模型在人工智能领域变得越来越重要。虽然自监督学习(SSL)和掩蔽图像建模(MIM)在构建此类遥感基础模型方面取得了有希望的结果,但这些模型主要学习低级别特征,需要注释数据进行微调,并且由于缺乏语言理解,不适用于检索和零样本应用。为了应对这些限制,我们提出了RemoteCLIP,这是第一个用于遥感的视觉语言基础模型,旨在学习具有丰富语义的健壮视觉特征,以及用于无缝下游应用的对齐文本嵌入。为了解决预训练数据的稀缺性,我们利用数据缩放,基于Box-To-Caption(B2C)和Mask-To-Box(M2B)转换转换异构注释,并进一步合并无人机图像,生成12倍大的预训练数据集。RemoteCLIP可应用于各种下游任务,包括零样本图像分类、线性探测、k-NN分类、少拍摄分类、图像-文本检索和对象计数。对16个数据集的评估,包括新引入的用于测试对象计数能力的RemoteCount基准测试,表明Remote CLIP在不同的模型规模上始终优于基线基础模型。令人印象深刻的是,RemoteCLIP在RSICD数据集上的平均召回率比以前的SoTA高9.14%,在RSICD数据集上高8.92%。对于零样本分类,我们的RemoteCLIP在12个下游数据集上的平均准确率高达6.39%,优于CLIP基线

主要介绍数据集生成过程。

框到文本描述(B2C)生成允许基于边界框注释和标签生成对象检测数据集的文本描述。

该方法采用基于规则的方法来生成描述图像中对象的五个不同的字幕,算法1概述了B2C方法。具体来说,前两个字幕是根据目标位置(边界框的中心点)生成的:第一个字幕描述图像中心的对象,而第二个字幕描述不位于中心的对象。这种区分提供了关于图像内对象的空间分布的附加上下文和信息。剩下的三个字幕是通过考虑图像中存在的不同对象类别的数量而生成的。将从边界框注释列表中选择随机对象,并相应地生成标题。如果一个对象的出现次数超过10次,则使用更通用的术语(例如"很多"、"很多")而不是确切的数字,以增强标题的可读性和可变性。

也有mask到框,再框到描述。

相关推荐
高效匠人17 分钟前
人工智能-Chain of Thought Prompting(思维链提示,简称CoT)
人工智能
要努力啊啊啊2 小时前
GaLore:基于梯度低秩投影的大语言模型高效训练方法详解一
论文阅读·人工智能·语言模型·自然语言处理
先做个垃圾出来………2 小时前
《机器学习系统设计》
人工智能·机器学习
s153352 小时前
6.RV1126-OPENCV 形态学基础膨胀及腐蚀
人工智能·opencv·计算机视觉
jndingxin2 小时前
OpenCV CUDA模块特征检测------角点检测的接口createMinEigenValCorner()
人工智能·opencv·计算机视觉
Tianyanxiao2 小时前
宇树科技更名“股份有限公司”深度解析:机器人企业IPO前奏与资本化路径
人工智能
道可云3 小时前
道可云人工智能每日资讯|北京农业人工智能与机器人研究院揭牌
人工智能·机器人·ar·deepseek
艾醒(AiXing-w)3 小时前
探索大语言模型(LLM):参数量背后的“黄金公式”与Scaling Law的启示
人工智能·语言模型·自然语言处理
极光JIGUANG3 小时前
GPTBots在AI大语言模型应用中敏感数据匿名化探索和实践
人工智能
飞哥数智坊3 小时前
AI生图还在等?混元图像2.0让你“实时”见效果
人工智能