技术栈

属性识别

lly_csdn123
4 个月前
python·深度学习·ai·图像分类·多模态·字幕生成·属性识别
【Image Captioning】DynReferDynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制, 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。