blip

gz7seven1 个月前
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示:     从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。
gz7seven1 个月前
大模型·多模态·blip·多模态学习·多模态大模型·图文生成
大模型学习笔记------BLIP模型详解与思考在上两篇文章中讲到了CLIP模型的主要应用与一些思考,本文的BLIP模型对CLIP模型的一个增强版本,能够更好地处理复杂的视觉和语言结合的任务,推动了多模态学习的发展。我认为比较重要的不同主要体现在如下两个方面:
datamonday1 年前
人工智能·多模态·blip·phi2·minigpt
【LMM 012】TinyGPT-V:24G显存训练,8G显存推理的高效多模态大模型论文标题:TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones 论文作者:Zhengqing Yuan, Zhaoxu Li, Lichao Sun 作者单位:Anhui Polytechnic University, Nanyang Technological University, Lehigh University 论文原文:https://arxiv.org/abs/2312.16862 论文出处:– 论文
zy_destiny1 年前
python·计算机视觉·多模态·图像文本·caption·预训练·blip
【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。