原始信息

标题: Multimodal Large Language Models: A Survey
译名: 多模态大语言模型综述
地址: arxiv.org/pdf/2311.13...
作者: Jiayang Wu , Wensheng Gan, Zefeng Chen , Shicheng Wan , Philip S. Yu
时间：2023.11

V. 各种任务的实用指南

图像字幕-Image captioning.

Image captioning(图像字幕)是一项涉及为给定图像生成简短文本描述的任务。这是一项多模态任务，处理由图像和简短文本描述组成的多模态数据集。多模态翻译任务是开放的和主观的，因此生成的内容不是唯一的。这项任务的目标是将视觉表示转换为文本表示，以应对翻译挑战。将视觉模态转换为文本的模型需要捕获图像的语义信息，并需要检测对象的关键对象、动作和特征。此外，它应该推断图像中对象之间的关系。图像字幕可用于为图像提供文本替代方案，这对盲人和视障用户特别有帮助 $50$ 。通过生成简短的文本描述，这些用户可以更好地理解和感知图像的内容。它为他们提供了一个与视觉世界互动的机会，增强了他们的体验和参与度。

文本到图像生成 - Text-to-Image generation

文本到图像生成(Text-to-Image generation）是多模态学习最受欢迎的应用之一。它解决了将文本翻译成图像的挑战。OpenAI的DALL-E 2 $23$ 和谷歌的Imagen $51$ 等模型在这一领域取得了重大突破，引起了广泛关注。这些模型的工作可以是图像字幕的逆过程。通过提供简短的文本描述作为提示，文本到图像模型可以生成准确反映文本语义的新颖图像。最近，还出现了文本到视频的模型。这些模型有广泛的应用。他们可以协助照片编辑和平面设计，同时也为数字艺术提供灵感。他们为用户提供了一种将文本直接转换为视觉内容的工具，推动创意产业的发展和创新。这些技术的进步为创建和理解图像提供了新的可能性。

手语识别 - Sign language recognition

此任务的目标是识别手语手势并将其转换为文本。手势是通过摄像头捕捉到的。为了准确识别手势，必须对齐相应的音频和两种模态。手语识别是一项基于对齐方法的任务，因为它需要模型对视觉的时间信息（如视频帧）和音频模态（如音频波形）进行对齐 $52$ 。这包括对齐视频帧和音频波形之间的时间，以识别手势及其相应的口语。

一个常用的手语识别开源数据集是RWTH PHOENIX Weather 2014T数据集 $53$ ，其中包含来自不同签名者的德语手语视频记录。该数据集提供视觉和音频模态(式)，非常适合于依赖对齐方法的多模态学习任务。通过对齐视频和音频的时间信息，模型可以利用视觉和音频特征进行手语识别，从而提高识别的准确性和有效性。

情感识别- Emotion recognition

虽然情绪识别可以只使用单个模态数据集进行，但可以通过使用多模态数据集作为输入来提高性能。多模态输入可以采用视频、文本和音频的形式，也可以包含脑电波数据等传感器数据 $54$ 。现实世界中的一个例子是音乐中的情感识别。在这项任务中，模型需要使用音频特征和歌词来识别音乐的情感内容。在这种情况下，采用后期融合方法是合适的，因为它结合了在单个模态（如音频特征和歌词）上训练的模型的预测来生成最终预测。DEAM数据集是专门为支持音乐情感识别和分析研究而设计的。它包括2000多首歌曲的音频功能和歌词 $55$ 。音频特征包括各种描述符，如MFCC、频谱对比度和节奏特征，而歌词则使用单词袋和单词嵌入等技术来表示。

视频处理-Video processing

在视频和音频领域，多模态融合也是一种日益增长的趋势。随着图像文本多模态模型向视频文本和音频文本多模态领域的迁移，出现了一系列具有代表性的模型。例如，用于图像文本域的VideoCoCa模型 $56$ 。CLIP模型导致了VideoCLIP模型的发展 $57$ 。统一的多模态大模型 的出现也推动了视频处理领域的进步。阿里巴巴的mPLUG-2 $58$ 在视频相关任务方面表现出色，例如视频问答和视频字幕。此外，谷歌的MusiclM $59$ 在音频多模态领域获得了认可，因为它可以基于文本输入生成音乐。

此外，视频和音频领域还涉及一系列其他多模态任务。

视听语音识别是对给定的个人视频和音频进行语音识别的任务。
视频声源分离涉及定位和分离给定视频和音频信号中的多个声源。
从音频生成图像是指生成与给定声音相关的图像。
语音条件人脸生成包括基于给定的语音来生成说话的人的视频。
有一些任务，如音频驱动的3D面部动画，它可以基于给定的语音生成说话的人的3D面部动漫，以及3D面部模板 $60$ 。

更聪明的数字人 - Smarter digital human

AIGC技术 $61$ 在数字人的发展中发挥了重要作用，简化了开发过程，提高了开发效率。Meta和NVIDIA等公司推出了帮助用户创建3D数字人的产品，NVIDIA的Omniverse Avatar就是一个例子。用户可以通过上传照片、视频或音频来创建数字人，提供了效率和成本效益的优势。具体而言，自然语言生成技术影响人机交互中的内容质量，而计算机视觉技术影响数字人的面部表情和肢体动作，如嘴唇同步 $62$ 。AIGC技术的不断进步实现了高质量的人机交互。AIGC为人工智能驱动的数字人类提供智能开发，在多模态交互中提供识别、感知、分析和决策能力。

数据集实用指南 - Practical guide for data

多模态数据集在推进视觉和语言任务研究方面发挥着至关重要的作用。这些数据集结合了不同的模态，如图像、文本、视频和音频，为各种应用程序提供了丰富多样的信息来源。我们将多模态数据集分类为不同类型，并为每个类别提供了一个有代表性的数据集精选，如下表所示。我们可以使用这些数据集为未来的研究进行实验来测试模型的有效性。

VI. 挑战

模态扩展 - Modalities expansion

传感器和数据源多种多样，因此可以获取丰富的信息，以实现更全面、准确的分析和识别。例如，在情绪计算领域，模态扩展涉及使用多种模态，如音频、面部表情、心电图（ECG）和脑电图（EEG），以更全面地了解和识别人们的情绪状态 $71$ 。音频模态可以捕捉说话者的音调和语速的变化；视觉模态可以分析面部表情和肢体语言；并且ECG和EEG可以提供与情绪变化相关的生理信号。此外，医学成像领域涉及多种模态(式)，如CT扫描、MRI和PET。例如：CT扫描可以提供关于组织结构和病变的详细信息；MRI可以观察组织的解剖结构和功能；PET可用于检测生物标志物的代谢和分布。通过组合不同形式的图像数据，医生和研究人员可以获得更全面、准确的医疗信息，以支持精确的诊断和治疗决策。

耗时问题- Time-consuming problem

为了优化训练架构和提高训练时间，大型模型对人工智能系统有着重大影响。首先，由于模型的巨大规模，计算可能需要分布在集群中。其次，多用户和多任务场景很常见，需要支持多租户。此外，高可靠性是必不可少的，要求模型具有动态容错能力。需要组合多个主干模型。尽管多模态LLM在各个领域取得了巨大成功，但其计算需求对模型训练提出了重大挑战。我们如何加快模型训练 $72$ ？我们可以将不同架构的多个模型动态分配给两个高速互连的数据中心。在训练和推理过程中，路径通过成组调度动态调度模型，实现共享计算、共享权重和动态路由等功能 $26$ 。

终身/持续学习 - Lifelong/continual learning

目前的经典方法是在给定的数据集上运行人工智能算法，建立模型，然后将该模型应用于实际任务。这被称为孤立学习，并导致算法不具有记忆能力的缺点。因此，模型或算法不会保留所学习的知识，然后将其不断应用于未来的学习。对于实际应用而非孤立任务，多模态大型模型需要终身学习 $73$ 或持续学习 $74$ 的能力。我们应该建立一个具有持续学习能力的LLM，能够根据自己的经验对世界进行复杂的理解，从而使用更复杂的知识进行自主和渐进的训练和改进 $74$ 。

走向AGI - Towards AGI

在通往通用人工智能的道路上，我们仍然面临许多机遇和挑战。例如，灾难性遗忘问题 $73$ 是指最初为语言任务训练的神经网络及其相关权重被重新用于其他任务，导致网络忘记其初始训练目标的现象。在这种情况下，大型模型可能会失去其原始语言能力，从而导致衰退。例如，转换到基于机器人的应用程序时的语言能力 $75$ 。最近的研究，如BLIP-2、KOSMOS-1、BEiT-3和PaLI $76$ ，强调了解决这一问题的两种可行方法：i) 通过使用较小的网络和用新数据从头开始重新训练来避免灾难性遗忘；ii) 通过使用更大的语言网络作为骨干来避免灾难性遗忘。请注意，在追求AGI时仍存在其他挑战，包括多模态融合、多模态对齐、协同学习和模型即服务（MaaS） $2$ 。

VII. 结论

多模态的发展为AI开辟了新途径，使二进制数据能够理解并处理各种类型的数据。多模态模型将在不久的将来更全面和智能化的系统。（结论中的其他内容和摘要相同，这里就不再列出了）。

$参考$

请看原论文

多模态大语言模型综述(下)-任务(应用)实用指南