技术栈
blip-2
Ma040713
1 个月前
论文阅读
·
语言模型
·
blip-2
·
q-former
【论文阅读24】-利用大型语言模型进行免训练的视频异常检测
题目:Harnessing Large Language Models for Training-Free Video Anomaly Detection
gz7seven
1 年前
大模型
·
llm
·
多模态
·
blip
·
多模态大模型
·
blip-2
·
q-former
BLIP-2模型的详解与思考
BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示: 从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。
我是有底线的