论文阅读——MCAN(cvpr2019)

补充一下MCAN-VQA:

对图片的处理:首先输入图片到Faster R-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为:,所以一张图片就被表示为一个特征矩阵:

对问题的处理:首先分成词,最多分为14个词,然后用300-D GloVe word embeddings变成向量,然后过LSTM,使用LSTM所有单词的输出,得到问题特征矩阵:,n是分成的单词个数。

m和n可能不一样,用0填充到max(m,n)。

然后有了图片和问题的特征矩阵X和Y,送入下面的Deep Co-Attention Learning模块,由L层MAC层堆叠

这个MAC层分为两种,stacking和encoder-decoder,和transformer很像,大概如下图:

Deep Co-Attention Learning模块输出的,送入Multimodal Fusion and Output Classifier模块,这个模块有个两层的MLP,做attention reduction

α是学习到的权重。

然后线性多模态融合:

得到Z之后后面就是做分类,sigmoid。

一些实验结果:

所以SA(Y)-SGA(X,Y)比较好,Encoder-decoder比较好。

相关推荐
家庭云计算专家7 分钟前
还没用过智能文档编辑器吗?带有AI插件的ONLYOFFICE介绍
服务器·人工智能·docker·容器·编辑器
ayiya_Oese32 分钟前
[训练和优化] 3. 模型优化
人工智能·python·深度学习·神经网络·机器学习
小众AI34 分钟前
Suna: 开源多面手 AI 代理
人工智能·开源
就不爱吃大米饭37 分钟前
Chrome代理IP配置教程常见方式附问题解答
大数据·人工智能·搜索引擎
-一杯为品-42 分钟前
【深度学习】#11 优化算法
人工智能·深度学习·算法
兔兔爱学习兔兔爱学习1 小时前
读论文alexnet:ImageNet Classification with Deep Convolutional Neural Networks
人工智能
Johny_Zhao1 小时前
VMware workstation 部署微软MDT系统
网络·人工智能·信息安全·微软·云计算·系统运维·mdt
亚里随笔2 小时前
AlphaEvolve:LLM驱动的算法进化革命与科学发现新范式
人工智能·算法·llm·大语言模型
Panesle2 小时前
基于对抗性后训练的快速文本到音频生成:stable-audio-open-small 模型论文速读
人工智能·机器学习·音视频
Linux猿2 小时前
华为云Flexus+DeepSeek征文|DeepSeek-V3/R1商用服务体验
人工智能·华为云·华为云征文·modelartsstudio·flexus+deepseek·deepseek-v3/r1