技术栈

q-former

m0_65010824
8 天前
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
InstructBLIP:面向通用视觉语言模型的指令微调技术解析在自然语言处理领域,大规模预训练与指令微调技术已成功构建出具备广泛能力的通用语言模型,但视觉语言领域的通用化探索仍面临严峻挑战。额外的视觉输入带来了丰富的输入分布与任务多样性,使得现有方法难以实现跨任务、跨数据集的高效泛化。Salesforce Research 等机构联合推出的 InstructBLIP 框架,通过系统的视觉语言指令微调研究,为解决这一难题提供了全新方案。
gz7seven
1 年前
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
BLIP-2模型的详解与思考BLIP-2模型的整个框架与BLIP比较来看相对抽象,具体如下所示:     从BLIP-2模型的整个框架爱上看,BLIP-2由这么几个部分组成,图像输入了图像编码器(Image Encoder),得到的结果与文本(Text)在Q-Former(BERT初始化)里进行融合,最后送入LLM模型,进行文本的生成。
我是有底线的