技术栈
属性识别
lly_csdn123
9 小时前
python
·
深度学习
·
ai
·
图像分类
·
多模态
·
字幕生成
·
属性识别
【Image Captioning】DynRefer
DynRefer是由中国科学院大学于2024年提出的用于1种用于区域级多模态任务的模型。DynRefer 通过模拟人类视觉认知过程,显著提升了区域级多模态识别能力。通过引入人眼的动态分辨率机制, 能够以同时完成区域识别、区域属性检测和区域字幕生成任务。