CV-MLLM经典论文解读|OneLLM: One Framework to Align All Modalities with Language

论文标题：

OneLLM: One Framework to Align All Modalities with Language

OneLLM：一个框架，将所有模态与语言对齐

论文链接：

Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs论文下载

论文作者：

Jiaming Han, Kaixiong Gong, Yiyuan Zhang, Jiaqi Wang, Kaipeng Zhang, Dahua Lin, Yu Qiao, Peng Gao, Xiangyu Yue

内容简介：

本论文介绍了OneLLM，这是一个多模态大型语言模型（MLLM），能够将八种不同的模态与语言对齐，使用统一的框架。OneLLM通过统一的多模态编码器和逐步多模态对齐管道实现这一目标。作者首先训练了一个图像投影模块，将视觉编码器与大型语言模型（LLM）连接起来。然后，他们构建了一个通用投影模块（UPM），通过混合多个图像投影模块和动态路由来实现。最终，他们使用UPM逐步将更多模态与LLM对齐。

为了充分利用OneLLM遵循指令的潜力，作者还策划了一个全面的多模态指令数据集，包括来自图像、音频、视频、点云、深度/法线图、惯性测量单元（IMU）和功能性磁共振成像（fMRI）脑活动的2M项。OneLLM在25个不同的基准测试中进行了评估，涵盖了多模态描述、问题回答和推理等任务，表现出色。