技术栈
blip-2
gz7seven
9 小时前
大模型
·
llm
·
多模态
·
blip
·
多模态大模型
·
blip-2
·
q-former
BLIP-2模型的详解与思考
BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示: 从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。