blip2

KeepThinking！

BLIP-2目录摘要AbstractBLIP-2模型框架预训练策略模型优势应用场景实验代码总结BLIP-2 是一种基于冻结的图像编码器和大型语言模型的高效视觉语言预训练模型，由 Salesforce 研究团队提出。它在 BLIP 的基础上进一步优化，通过轻量级的查询 Transformer桥接图像和文本模态，解决了先前模型在参数效率和多模态对齐方面的不足。BLIP-2 在少样本学习和零样本生成任务中表现出色，例如：在 zero-shot VQAv2 任务上比 Flamingo 提升了 8.7% 的性能，同时可训练参数

使用3080ti配置安装blip2（注意！我在运行blip2的demo的时候显存用了80G以上，所以虽然这张卡能配好，但为了显存需要多卡运行！）

清梦枕星河~

使用blip2进行图片输入文本输出多模态的重要模型blip2,官方提供模型可以直接用来图片生成文本 github地址：https://github.com/salesforce/LAVIS/tree/main/projects/blip2

我是有底线的