【多模态大模型】--BLIP3

AIWhispers2025-08-16 11:46

文章目录

BLIP3
- 架构
- [Any-Resolution Vision Token Sampling](#Any-Resolution Vision Token Sampling)
- 训练
- 数据

BLIP3

今天学习一下BLIP3，BLIP3相对BLIP2做了比较大的改进，主要是针对BLIP2的下面几个问题：
1. 只支持单图像输入，不能算是一个自然的多模态交互形式
2. 损失函数由三部分组成，可能存在多任务目标不一致的情况。
3. 数据上，数据量小，多样性不足。

针对上述问题，我们来过一下BLIP3的核心内容。

架构

BLIP3舍弃了BLIP2提出的Q-Former架构，而是采用了Flamingo提出的Perceiver Resampler的做法，其实二者的核心都差不多，都是讲图像编码器得到的视觉token的输入再映射到一个固定数量的token。整体架构如图所示：

Any-Resolution Vision Token Sampling

任意分辨率视觉token采样：

首先匹配最近的分辨率
再进行切分patch,因为sigLIP的输入的分辨率是384x384,所以将一个768x768的图片切分为4个patch,外加一个resize的整体的patch，应该就是下采样，使其分辨率降低。所以总共有5个patch。
将这5个patch输入到视觉编码器，得到5x24x24xd=5x576xD.
然后将其输送到Perceiver Resampler得到5x128xD=640xD这个token数量的维度，然后再作为图像信息输进去
其实上述的核心就是图像信息更加细粒度了，另一个是不管任意分辨率，都能得到固定长度的图像表示。
这一点确实是合理的，如果直接输到视觉编码器里面，patch划分后是更粗粒度一些，但是也包含所有的信息，这种做法，其实也不是很理解。

训练

整个训练分为预训练，指令微调，DPO偏好对齐

数据

本文产生了大量的数据集。现在看来，最大的贡献其实就是数据集，整个的架构目前感觉用MLP连接更合理，也不需要将得到的视觉的token转换为一个固定的数量。

上一篇：LeetCode 刷题【42. 接雨水】

下一篇：Nginx蜘蛛请求智能分流：精准识别爬虫并转发SEO渲染服务

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03【保姆级教程】免费使用Gemini3的5种方法！免翻墙/国内直连 04UV安装并设置国内源 05安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）06Linux下V2Ray安装配置指南 07Labelme从安装到标注：零基础完整指南 08“我的电脑”图标没了怎么办 4种方法找回 09Google Antigravity：无法登录？早期错误、登录修复和用户反馈指南 10全球最强模型Grok4，国内已可免费使用！（附教程）