论文阅读——MCAN(cvpr2019)

补充一下MCAN-VQA:

对图片的处理:首先输入图片到Faster R-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为:,所以一张图片就被表示为一个特征矩阵:

对问题的处理:首先分成词,最多分为14个词,然后用300-D GloVe word embeddings变成向量,然后过LSTM,使用LSTM所有单词的输出,得到问题特征矩阵:,n是分成的单词个数。

m和n可能不一样,用0填充到max(m,n)。

然后有了图片和问题的特征矩阵X和Y,送入下面的Deep Co-Attention Learning模块,由L层MAC层堆叠

这个MAC层分为两种,stacking和encoder-decoder,和transformer很像,大概如下图:

Deep Co-Attention Learning模块输出的,送入Multimodal Fusion and Output Classifier模块,这个模块有个两层的MLP,做attention reduction

α是学习到的权重。

然后线性多模态融合:

得到Z之后后面就是做分类,sigmoid。

一些实验结果:

所以SA(Y)-SGA(X,Y)比较好,Encoder-decoder比较好。

相关推荐
勾股导航1 小时前
大模型Skill
人工智能·python·机器学习
卷福同学3 小时前
【养虾日记】Openclaw操作浏览器自动化发文
人工智能·后端·算法
春日见4 小时前
如何入门端到端自动驾驶?
linux·人工智能·算法·机器学习·自动驾驶
光锥智能4 小时前
从自动驾驶到 AI 能力体系,元戎启行 GTC 发布基座模型新进展
人工智能
luoganttcc4 小时前
自动驾驶 世界模型 有哪些
人工智能·机器学习·自动驾驶
潘高4 小时前
10分钟教你手撸一个小龙虾(OpenClaw)
人工智能
禁默4 小时前
光学与机器视觉:解锁“机器之眼”的核心密码-《第五届光学与机器视觉国际学术会议(ICOMV 2026)》
人工智能·计算机视觉·光学
深小乐4 小时前
不是DeepSeek V4!这两个神秘的 Hunter 模型竟然来自小米
人工智能
laozhao4324 小时前
科大讯飞中标教育管理应用升级开发项目
大数据·人工智能
rainbow7242444 小时前
AI人才简历评估选型:技术面试、代码评审与项目复盘的综合运用方案
人工智能·面试·职场和发展