多模态简单了解

青山瀚海2024-10-09 22:29

多模态

1.文本编码
[2. ViT图像编码器](#2. ViT图像编码器)
- 2.1图像矩阵self-attention计算：
3.Transformer多模态
- [3.1CLIP 图文交互](#3.1CLIP 图文交互)
- [3.2 对比学习训练](#3.2 对比学习训练)
- [3.3 flamingo 图文交互](#3.3 flamingo 图文交互)
- [3.4 LLava 图文交互](#3.4 LLava 图文交互)

1.文本编码

简介： 即通过embedding将字符向量化，进入模型即可。

2. ViT图像编码器

释义：

图片是由一个个像素点构成的，每个像素点是1-255的数，所以图片其实是天然的矩阵。

将图片切割成单独的小的部分，延展开，就和文本一样是一些序列，通过Patches，embedding成向量，并且加上位置信息position。

输入到transformer结构的编码器中，encoder。

2.1图像矩阵self-attention计算：

示例图如下：

3.Transformer多模态

简介： 即在图文的两种模态模型中，使用transformer的做法。

3.1CLIP 图文交互

释义：

即将图片和文本分布输入各自得编码器得到向量。

将图片和文本的向量进行相关性计算，这样就可以得到一个图片和文本匹配的模型。

作用： 文搜图的功能，以及得到两个较好的文本、图像编码器。

3.2 对比学习训练

释义：

通过图像和文本编码器后，得到各个样本的数据

进行图像和文本的关系计算，这里每一个图片都只有一个正样本，其他的都是负样本，可以得到一个区分识别图片内容的模型。

3.3 flamingo 图文交互

释义：

通过self-attention计算文本和图片中的关系时，将文本输入作为Q；图像输入作为K、V计算

示意图：

3.4 LLava 图文交互

释义： 即将文本和图像内容拼接在一起送入到self-attention中，即计算图片与图片、文本与文本、还包括图片与文本之间的关系。

上一篇：mysql 慢查询日志、设置单条数据最大 packet 插入大小指令

下一篇：【MySQL】多表联合查询常见练习题

热门推荐

01UV安装并设置国内源 02DeepSeek更新！速览DeepSeek V3.1新特性 03Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 04KGG转MP3工具|非KGM文件|解密音频 05蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 06【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）072025最新国内服务器可用docker源仓库地址大全（2025年8月更新）08阿里开源首个图像生成基础模型——Qwen-Image本地部署教程，超强中文渲染能力刷新SOTA！09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10TRAE 规则（Rules）配置指南：个人习惯、团队规范与最佳实践