多模态大模型-基础概念

什么是多模态大模型?

多模态大模型(Multimodal LLM)是指能够同时处理文本、图像、语音、视频等多种数据模态的模型,并在统一表示空间中进行理解与推理。

理解以下概念即可:

共享空间向量:

不同模态被映射到同一个向量空间。

同时拥有语音,文本,图像,他们都被标记化并且嵌入一个高维空间,模型可以一起推理,其中的关键就是一个共享。比如,cat和猫的图像,在共享空间中,会靠的很近。

这种共享空间向量会比视觉编码器要更好,因为在我们提出问题之前,视觉编码器已经处理了我们的图像,而世界编码器可能会压缩掉我们所需要的精确细节,但是如果我们有一个共享的向量空间模型,能够同时注意到图片和单词,所以知道应该往哪里看,举个例子,想象一下我们的手机的一个屏幕中会有不同的App软件,我们想找某一个软件时候,模型会同时的去看这个App的图标和它下面所对应的名字,所以能够很快的定位到这个软件。

视频是具有时间序列的数据

早期的视觉编码器会在一段视频中进行采样,然后把这些所采样的帧送进视觉编码器,但是同样的这样,从视频中采取关键帧的做法会丢失很多的信息,想象一下,在一段视频中有一个人拿着一瓶水,我们采样的图片就是这个人拿着水的一个状态,但是我们从这一帧的图像中没有办法判断这个水平是放在地上还是说他正在把这个水平给举起来而这样的一些信息都存在于时间序列中,所以说,更新的多模态模型在保持时间维度的视频中嵌入了视频,比如说原来在共享的一个向量空间中,一张图片会被切分成8×8个patch,然后作为一个嵌入的向量,是一个2d的概念。但是视频他是一个3D的一个向量,比如一个8×8×8的一个方块,它就表达一个比如8帧的这样一个视频,这就意味着视频的一个动作,不再需要通过比较两张图片去猜测他的一个动作状态,因为我们通过一个3D的这样的一个向量嵌入式的向量动作,实际上已经融入了token本身

输入与输出

想象一下,在一个多模态的模型中,我们的输入可以是文本图像和视频,他们共同被输入一个多模态模型中,但是,值得注意的是,多模态模型,它本身的输出也可以是跨模态的,因为我们最开始就提到过所有的模态,他们都在一个共享的向量空间中,所以我们就得到了所谓的能够从任意到任意的一个生成Any to any generation

学习资料:https://www.youtube.com/watch?v=J51oZYcNvP8\&t=77s
相关推荐
searchforAI12 分钟前
啥是LLM?大语言模型从原理到选型的完整科普
人工智能·科技·深度学习·ai·语言模型·知识图谱·agent
MartinYeung59 小时前
[论文学习]重新思考大型语言模型忘却目标:梯度视角与超越
人工智能·学习·语言模型
MartinYeung511 小时前
[论文学习]DP2Unlearning:高效且具保证的大型语言模型遗忘框架(基于差分隐私的 LLM Unlearning 方法)
学习·算法·语言模型
chenjim12 小时前
你的 Agent 是个黑箱:eBPF 如何看见它真正在做什么
llm·agent
Lkstar12 小时前
万字长文Query改写与多路召回实战|从HyDE到RRF融合,召回率提升22%的完整方案
数据库·人工智能·llm
张彦峰ZYF12 小时前
从嵌入、表征到潜空间:理解大模型向量世界的三种视角
人工智能·大模型·向量空间
AI语宙漫游指南13 小时前
从 CV 扩散到 NLP:详解 Google DiffusionGemma 架构、推理机制与优劣
深度学习·llm
程序员cxuan14 小时前
瑞幸出 CLI 了,这会是迈向 AGI 的第一步吗?
ai·llm·agi
智泊AI14 小时前
为什么现在大家都在扎堆转 Agent 流程架构师?
llm
troubles maker16 小时前
LoRA: Low-Rank Adaptation of Large Language Models
语言模型·自然语言处理·lora·大模型·peft