q-former

【论文阅读24】-利用大型语言模型进行免训练的视频异常检测题目：Harnessing Large Language Models for Training-Free Video Anomaly Detection

InstructBLIP：面向通用视觉语言模型的指令微调技术解析在自然语言处理领域，大规模预训练与指令微调技术已成功构建出具备广泛能力的通用语言模型，但视觉语言领域的通用化探索仍面临严峻挑战。额外的视觉输入带来了丰富的输入分布与任务多样性，使得现有方法难以实现跨任务、跨数据集的高效泛化。Salesforce Research 等机构联合推出的 InstructBLIP 框架，通过系统的视觉语言指令微调研究，为解决这一难题提供了全新方案。

BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象，具体如下所示：从BLIP-2模型的整个框架爱上看，BLIP-2由这么几个部分组成，图像输入了图像编码器（Image Encoder），得到的结果与文本（Text）在Q-Former（BERT初始化）里进行融合，最后送入LLM模型，进行文本的生成。

我是有底线的