多模态论文阅读之VLMo

VLMo泛读

Title

VLMo:Unified Vision_Langugae Pre-Training with Mixture-of-Modality-Experts

Motivation

  1. CLIP和ALIGN都采用dual-encoder 的方式分别编码图像和文本,模态之间的交互采用cosine similarity ,这种方法对retrieval tasks(检索任务)及其有效;但是如此shallow intersection between images and text is not enough to handle complex VL classfication tasks. In ViLT, find that CLIP gives a relatively low accuracy on visual resaoning(VR) task; 后来一系列的tasks,采用的fusion encoder 的方式,即一开始分来images and text 然后采用transformer的encoder 做cross-modal 的intersection,这样的architecture 弥补了dual encoder architecture的drawback,But it requires to jointly encode all possible image-text pairs to compute similarity scores for retrieval tasks. The quadratic time complexity leads to a much slower inference speed than the dual-encoder models models whos time complexity is linear. So, 有没**有一种融合上述两种架构的方法呢?**做检索任务的时候用 dual-encoder架构,做classfication的时候用fusion encoder,所以本文提出了Mixture-of-Modality-Experts
  2. VLMo的训练loss是image-text contrastive(ITC), image-text matching(ITM), masked Language modeling(MLM)和ALBEF是一样的。提出了一个stagewise的预训练方法分别vision 和NLP中的large-scale corpus:首先在vision上训练好,再预训练language experts on text-only data,最后将模型用于vision-language pre-training。

Contribution

  1. 模型上的改进:Mixture-of-Modality-Experts
  2. 训练方式上的改进:分阶段模型预训练

Model

  1. 模型中所有的multi-head self-Attention都是share weights的
  2. 模型inference的时候很灵活,要做那个任务,切换到那个架构上就行。
  3. 分阶段训练策略

Expertiments

  1. 比ALBEF性能好很多
  2. 在更大的数据集上训练,数据变得更好。

Summary

  1. 就是把transformer里的encoder中的FFN分为了几个FFN
相关推荐
DuHz15 小时前
用于汽车应用的数字码调制(DCM)雷达白皮书精读
论文阅读·算法·自动驾驶·汽车·信息与通信·信号处理
@––––––18 小时前
论文阅读笔记:The Bitter Lesson (苦涩的教训)
论文阅读·人工智能·笔记
张较瘦_18 小时前
[论文阅读] AI + 软件工程 | 突破AAA游戏测试瓶颈!选择性插桩让代码覆盖“轻装上阵”
论文阅读·游戏·软件工程
STLearner18 小时前
MM 2025 | 时间序列(Time Series)论文总结【预测,分类,异常检测,医疗时序】
论文阅读·人工智能·深度学习·神经网络·算法·机器学习·数据挖掘
心心喵21 小时前
[论文笔记] Agent is all you need | AI智能体前沿进展总结
论文阅读
檐下翻书1731 天前
免费工艺流程模板下载_在线编辑建筑/汽车/物流工艺流程图图表
论文阅读·汽车·流程图·论文笔记·pcb工艺
数说星榆1812 天前
小型工厂工艺流程图制作_在线设计装配/焊接/冲压工艺流程模板
大数据·论文阅读·人工智能·流程图·论文笔记
DuHz2 天前
UWB 雷达综述精读:应用、标准、信号处理、数据集、芯片与未来方向——论文阅读
论文阅读·学习·算法·信息与通信·信号处理
程途拾光1582 天前
化工生产工艺流程图基础符号规范与详细绘制步骤教程
论文阅读·信息可视化·流程图·课程设计·pcb工艺
qq_416276422 天前
用于说话人验证与说话人日志的通道对抗训练
论文阅读·深度学习