技术栈

blip-2

gz7seven
6 个月前
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示:     从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。