论文阅读——MCAN(cvpr2019)

补充一下MCAN-VQA:

对图片的处理:首先输入图片到Faster R-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为:,所以一张图片就被表示为一个特征矩阵:

对问题的处理:首先分成词,最多分为14个词,然后用300-D GloVe word embeddings变成向量,然后过LSTM,使用LSTM所有单词的输出,得到问题特征矩阵:,n是分成的单词个数。

m和n可能不一样,用0填充到max(m,n)。

然后有了图片和问题的特征矩阵X和Y,送入下面的Deep Co-Attention Learning模块,由L层MAC层堆叠

这个MAC层分为两种,stacking和encoder-decoder,和transformer很像,大概如下图:

Deep Co-Attention Learning模块输出的,送入Multimodal Fusion and Output Classifier模块,这个模块有个两层的MLP,做attention reduction

α是学习到的权重。

然后线性多模态融合:

得到Z之后后面就是做分类,sigmoid。

一些实验结果:

所以SA(Y)-SGA(X,Y)比较好,Encoder-decoder比较好。

相关推荐
圆号本昊9 分钟前
RimWorld AI记忆系统深度技术分析
人工智能
Francek Chen28 分钟前
【飞算JavaAI】智能开发助手赋能Java领域,飞算JavaAI全方位解析
java·开发语言·人工智能·ai编程·飞算
Hello娃的1 小时前
【神经网络】人工神经网络ANN
人工智能·深度学习·神经网络
RockHopper20251 小时前
一种认知孪生xLLM架构的原理说明
人工智能·llm·数字孪生·认知孪生
weixin199701080161 小时前
哔哩哔哩 item_get_video - 获取视频详情接口对接全攻略:从入门到精通
人工智能·音视频
沛沛老爹1 小时前
Web开发者实战RAG评估:从指标到工程化验证体系
前端·人工智能·llm·agent·rag·评估
qq_200465051 小时前
日益衰落的五常“礼、义、仁、智、信”,蒸蒸日上的五德“升、悟、净、正、合”
人工智能·起名大师·改名大师·姓名学大师·姓名学专家
Kiyra1 小时前
阿里云 OSS + STS:安全的文件上传方案
网络·人工智能·安全·阿里云·系统架构·云计算·json
程途拾光1581 小时前
自监督学习在无标签数据中的潜力释放
人工智能·学习
墨染天姬2 小时前
【AI】5w/1h分析法
人工智能