论文阅读——MCAN(cvpr2019)

补充一下MCAN-VQA:

对图片的处理:首先输入图片到Faster R-CNN,会先设定一个判断是否检测到物体的阈值,这样动态的生成m∈[10,100]个目标,然后从检测到的对应的区域通过平均池化提取特征。第i个物体特征表示为:,所以一张图片就被表示为一个特征矩阵:

对问题的处理:首先分成词,最多分为14个词,然后用300-D GloVe word embeddings变成向量,然后过LSTM,使用LSTM所有单词的输出,得到问题特征矩阵:,n是分成的单词个数。

m和n可能不一样,用0填充到max(m,n)。

然后有了图片和问题的特征矩阵X和Y,送入下面的Deep Co-Attention Learning模块,由L层MAC层堆叠

这个MAC层分为两种,stacking和encoder-decoder,和transformer很像,大概如下图:

Deep Co-Attention Learning模块输出的,送入Multimodal Fusion and Output Classifier模块,这个模块有个两层的MLP,做attention reduction

α是学习到的权重。

然后线性多模态融合:

得到Z之后后面就是做分类,sigmoid。

一些实验结果:

所以SA(Y)-SGA(X,Y)比较好,Encoder-decoder比较好。

相关推荐
Blossom.1183 小时前
基于多模态大模型的工业质检系统:从AOI到“零样本“缺陷识别的产线实践
运维·人工智能·python·机器学习·自动化·测试用例·知识图谱
美狐美颜sdk3 小时前
什么是美颜SDK?一套成熟直播美颜SDK需要解决哪些工程技术问题?
人工智能·美颜sdk·第三方美颜sdk·视频美颜sdk·人脸美型sdk
无代码专家4 小时前
无代码:打破技术桎梏,重构企业数字化落地新范式
大数据·人工智能·重构
usrcnusrcn4 小时前
告别PoE管理盲区:有人物联网工业交换机如何以智能供电驱动工业未来
大数据·网络·人工智能·物联网·自动化
雍凉明月夜4 小时前
视觉opencv学习笔记Ⅴ-数据增强(1)
人工智能·python·opencv·计算机视觉
骚戴4 小时前
深入解析:Gemini 3.0 Pro 的 SSE 流式响应与跨区域延迟优化实践
java·人工智能·python·大模型·llm
CNRio4 小时前
从智能穿戴设备崛起看中国科技自立自强的创新实践
人工智能·科技·物联网
疾风sxp4 小时前
nl2sql技术实现自动sql生成之Spring AI Alibaba Nl2sql
java·人工智能
程序猿追4 小时前
使用GeeLark+亮数据,做数据采集打造爆款内容
运维·服务器·人工智能·机器学习·架构
木卫二号Coding4 小时前
第六十篇-ComfyUI+V100-32G+运行Wan2.2-图生视频
人工智能