IMAGEBIND: One Embedding Space To Bind Them All论文笔记

论文 https://arxiv.org/pdf/2305.05665.pdf
代码 https://github.com/facebookresearch/ImageBind

1. Motivation

  • 像CLIP这一类的方法只能实现Text-Image这两个模态的 Embedding 对齐,本文提出的ImageBind能够实现六个模态(images, text, audio, depth, thermal, and IMU data)之间的联合Embedding空间对齐。
  • 本文的多模态之间的对齐也不需要专门制作一个数据集,这个数据集中的每个sample都有六种模态的对应数据,这是不现实的,成本太高。本文提出的ImageBind只需要将所有模态全部对齐到Image Embedding,uses pairs of modalities (I, M), where I represents images and M is another modality。

2. Method

2.1 数据构造

  • (Image-Text) pairs from web-scale (image, text) paired data,参考《Learning transferable visual models from natural language supervision》;
  • (video, audio) pairs from the Audioset dataset;
  • (image, depth) pairs from the SUN RGB-D dataset;
  • (image, thermal) pairs from the LLVIP dataset;
  • (video, IMU) pairs from the Ego4D dataset;

Since SUN RGB-D and LLVIP are relatively small, we follow [21] and replicate them 50× for training

2.2 align pairs of modalities to image

给定一个 ( I i , M i ) (I_i, M_i) (Ii,Mi) pair, L i L_i Li 是image, M i M_i Mi 是其他模态的数据:

损失函数采用InfoNCE loss:

In practice, we use a symmetric loss L I , M + L M , I L_{I,M} + L_{M,I} LI,M+LM,I.

最终,We observe an emergent behavior in the embedding space that aligns two pairs of modalities (M1, M2) even though we only train using the pairs (I, M1) and (I, M2).

2.3 模型细节

  • Image Encoder: Vision Transformer (ViT)
  • Video Encoder: Vision Transformer (ViT) , temporally inflate the patch projection layer of the ViT and use 2 frame video clips sampled from 2 seconds. 参考《OmniMAE: Single Model Masked Pretraining on Images and Videos》
  • Audio Encoder:ViT-B,convert a 2 second audio sampled at 16kHz into spectrograms using 128 mel-spectrogram bins. As the spectrogram is also a 2D signal like an image, we use a ViT with a patch size of 16 and stride 10。参考《AST: Audio Spectrogram Transformer》
  • Thermal and Depth Encoder:ViT-S ,treat thermal images and depth images as one-channel images
  • IMU Encoder :extract the IMU signal consisting of accelerometer and gyroscope measurements across the X, Y , and Z axes. We use 5 second clips resulting in 2K time step IMU readings which are projected using a 1D convolution with a kernel size of 8.
    The resulting sequence is encoded using a Transformer
  • Text Encoder:follow the text encoder design from CLIP。

所有模态采用不同的Encoder,最后每一个Encoder后面加一个linear projection head讲所有的模态Embedding编码成d维。

为了降低训练复杂度,作者采用 pretrained vision (ViT-H 630M params) and text encoders (302M params) from OpenCLIP。

3. 实验

3.1 Emergent zero-shot classification

作者在论文中多次强调了ImageBind类似CLIP的Zero-Shot分类能力,但是ImageBind具有跨模态的Zero-Shot分类能力,配合一些特定任务的下游模型,也可以做到开放词汇检测,如下:

3.2 Embedding space arithmetic (Embedding 空间算术)

3.3 模态对齐能力随着视觉模型大小变大而提升

相关推荐
m0_6501082413 小时前
VADv2:基于概率规划的端到端矢量化自动驾驶
论文阅读·自动驾驶·端到端矢量化·驾驶场景中的不确定性·概率场建模·多模态编码·vadv2
东南门吹雪14 小时前
向量、张量、大语言模型、Embedding
人工智能·语言模型·embedding
提娜米苏14 小时前
[论文笔记] End-to-End Audiovisual Fusion with LSTMs
论文阅读·深度学习·lstm·语音识别·论文笔记·多模态
m0_6501082414 小时前
DiffusionDrive:面向端到端自动驾驶的截断扩散模型
论文阅读·扩散模型·端到端自动驾驶·阶段扩散策略·高级联扩散解码器·cvpr2025
提娜米苏15 小时前
[论文笔记] 基于 LSTM 的端到端视觉语音识别 (End-to-End Visual Speech Recognition with LSTMs)
论文阅读·深度学习·计算机视觉·lstm·语音识别·视觉语音识别
m0_6501082416 小时前
BEVDet:鸟瞰图视角下的高性能多相机 3D 目标检测
论文阅读·bevdet·bev视角·3d目标检测范式·多任务统一框架·bev语言分割
阿杰学AI17 小时前
AI核心知识31——大语言模型之Multimodal Understanding(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·embedding·多模态理解
STLearner1 天前
AI论文速读 | U-Cast:学习高维时间序列预测的层次结构
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
youcans_1 天前
【DeepSeek 论文精读】15. DeepSeek-V3.2:开拓开源大型语言模型新前沿
论文阅读·人工智能·语言模型·智能体·deepseek
m0_650108241 天前
Co-MTP:面向自动驾驶的多时间融合协同轨迹预测框架
论文阅读·人工智能·自动驾驶·双时间域融合·突破单车感知局限·帧间轨迹预测·异构图transformer