多模态大模型调研BLIP、BLIP2、InstructBLIP









ITC:图像向量与文本向量对齐在同一特征空间

ITM:二分类任务。负样本构建:前方ITC分错的地方,在对比学习的基础上,更细粒度的对其特征。

LM:GPT的生成任务,将文本重新进行预测。

BLIP另一个贡献在于弱监督图文数据清洗方面 ,通过训练模型剔除了图文匹配度差以及对部分图文生成了更好的文本标注。

BLIP2

分两个阶段进行操作,首先是训练表征学习器。

Q-Former:桥梁,要训练的参数,将表征向量与文本向量进行对齐。

Learned Queries:可以学习的矩阵,不是我们输入的。

三个任务:

对比学习:更细粒度的分类

图文匹配:使用来自对比学习的负样本

图文生成:图像生成decoder。

图文匹配注意力:不存在遮挡,图片能看到文本,文本能看到图片。

文本生成任务注意力:存在遮挡

对比学习注意力:文本看不到图像,图像看不到文本。

BLIP2:微调Q-Former即可。

国产

BLIP2 +SAM

InstructBLIP:可以处理更复杂的视觉处理。

这张图片展示了不同任务(Tasks)下的Instruction Templates (指令模板)。这些任务包括Image Captioning (图像描述)、VQA (视觉问答),以及VQG(视觉问题生成)。表格中给出了每个任务对应的指令模板,用来生成或指导大模型执行特定任务。下面是每个部分的详细解释:

1. Image Captioning(图像描述)

任务:给定一幅图像,模型生成该图像的文字描述。

  • 指令模板中提供了许多变体,都是在要求模型描述图像内容。模板使用了类似的短语,包括:
    • "A short image caption:"(简短的图片标题)
    • "Provide a description of what is presented in the photo."(描述图片中展示的内容)
    • "Please provide a short depiction of the picture."(请简短描述图片)
    • "Use a few words to illustrate what is happening in the picture."(用几句话描述图片中发生的事情)

这些指令引导模型生成图像的简要描述,主要任务是让模型理解图片的内容并生成相关文本。

2. VQA (Visual Question Answering, 视觉问答)

任务:给定一幅图像和一个问题,模型需要基于图像回答问题。

  • 指令模板使用了各种方法来呈现问题,例如:
    • " {Question}"(图片加问题)
    • "Q: {Question} A:"(问题与回答)
    • "Given the image, answer the following question with no more than three words: {Question}"(给定图像,使用不超过三个词语回答下列问题)
    • "What is the answer to the following question? {Question}"(问题的答案是什么?)

这些模板要求模型基于图像信息回答所提出的问题,且有时会限制回答的字数。

3. VQG (Visual Question Generation, 视觉问题生成)

任务:给定一幅图像和一个答案,模型需要基于图像生成相应的问题。

  • 指令模板引导模型生成问题,指令中通常包含答案提示:
    • "Given the image, generate a question whose answer is: {Answer}. Question:"(给定图片,生成答案为{Answer}的问题)
    • "Based on the image, provide a question with the answer: {Answer}."(基于图片,生成答案为{Answer}的问题)
    • "Taking the image into account, generate a question that has the answer: {Answer}."(基于图片,生成答案为{Answer}的问题)

这些模板指引模型生成与图片相关的、能得到指定答案的问题,目的是测试模型生成合适问题的能力。

总结

这张表格总结了在不同任务(如图像描述、视觉问答、视觉问题生成)中,如何向大语言模型提供不同形式的指令模板。每个任务的指令稍有不同,以适应任务要求。例如,图像描述任务要求生成简短的描述,视觉问答则要求根据图像回答问题,而视觉问题生成任务则要求模型根据图像和预设答案生成问题。

这些指令模板有助于增强模型的多任务处理能力,使其能够更好地理解和执行不同的视觉相关任务。

相关推荐
Elastic 中国社区官方博客几秒前
Elastic 的 AI agent skills
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索
容智信息5 分钟前
AI Agent(智能体)的输出格式应该从 Markdown 转向 HTML吗?
前端·人工智能·rust·编辑器·html·prompt
学习论之费曼学习法6 分钟前
AI 入门 30 天挑战 - Day 28 - 前沿技术概览
人工智能
陕西字符9 分钟前
2026 西安小微企业地图与 AI 问答排名优化:专业技术指南与落地方案
大数据·人工智能
TENSORTEC腾视科技20 分钟前
腾视科技AI大模型应用:提效、破局与落地,重塑智能新生态
人工智能·科技·安全·ai·ai大模型·无人叉车及智能调度系统解决方案
阿里云大数据AI技术21 分钟前
破解 AI 搜索“效果与成本”双重困境:阿里云 Elasticsearch 向量混合检索最佳实践揭秘
人工智能·elasticsearch
仙女修炼史23 分钟前
视觉CNN常用基础技术来源:UberNet
人工智能·神经网络·cnn
ishangy27 分钟前
皮带撕裂早期特征提取:AI摄像机+深度学习在港口的应用
人工智能·深度学习·智慧港口·港口皮带ai识别·皮带检测识别
imbackneverdie33 分钟前
一天怎么完成论文初稿
人工智能·自然语言处理·aigc·ai写作·论文写作·论文投稿·科研工具
1892280486136 分钟前
H27QCG8T2ELR-BCF海力士H27QCG8UDBIR-BCB
大数据·服务器·人工智能·科技·缓存