MM-LLMs :多模态大语言模型综述

MM-LLMs:

Recent Advances in MultiModal Large Language Models

https://arxiv.org/pdf/2401.13601

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Initially, we outline general design formulations for model architecture and training pipeline. Subsequently, we introduce a taxonomy encompassing 126 MM-LLMs, each characterized by its specific formulations. Furthermore, we review the performance of selected MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Finally, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website1 for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

在过去一年中,多模态大型语言模型(MM-LLMs)取得了显著进展,通过成本效益高的训练策略,增强了现成的LLMs(大型语言模型),以支持多模态输入或输出。这些模型不仅保留了LLMs固有的推理和决策能力,还增强了多种多模态任务的处理能力。本文旨在通过全面综述,促进MM-LLMs领域的进一步研究。

首先,本文概述了模型架构和训练流程的一般设计公式。

随后,本文引入了一个包含126个MM-LLMs的分类体系,每个模型都有其特定的设计公式。

此外,本文还回顾了部分MM-LLMs在主流基准测试中的表现,并总结了增强MM-LLMs效能的关键训练策略。

最后,本文在探索MM-LLMs未来发展方向的同时,还维护了一个实时跟踪网站1,以关注该领域的最新进展。我们希望本次综述能为MM-LLMs领域的持续发展做出贡献。

相关推荐
九亿AI算法优化工作室&1 小时前
结合大语言模型的机械臂抓取操作学习
人工智能·学习·语言模型·自然语言处理
Jamence2 小时前
多模态大语言模型arxiv论文略读(四十五)
人工智能·考研·语言模型
weixin_435208162 小时前
如何评价 DeepSeek 的 DeepSeek-V3 模型?
人工智能·深度学习·自然语言处理
Fanxt_Ja4 小时前
LLaMA-Factory部署以及大模型的训练(细节+新手向)
人工智能·深度学习·语言模型·自然语言处理·conda·llama-factory·deepseek
崔高杰5 小时前
On the Biology of a Large Language Model——Claude团队的模型理解文章【论文阅读笔记】其二——数学计算部分
论文阅读·人工智能·笔记·语言模型·nlp
结冰架构5 小时前
人工智能大语言模型与AI芯片新进展:技术演进与商业化路径
人工智能·ai·语言模型·自然语言处理·技术
小研学术6 小时前
如何开展有组织的AI素养教育?
大数据·人工智能·ai·大模型·deepseek·ai素养
鸿蒙布道师8 小时前
百度Create大会深度解读:AI Agent与多模态模型如何重塑未来?
人工智能·深度学习·神经网络·机器学习·百度·自然语言处理·dubbo
新加坡内哥谈技术12 小时前
MCP:人工智能时代的HTTP?探索AI通信新标准
人工智能·自然语言处理·chatgpt
0x21114 小时前
[论文阅读]REPLUG: Retrieval-Augmented Black-Box Language Models
论文阅读·人工智能·语言模型