技术栈
图像文本
zy_destiny
1 年前
python
·
计算机视觉
·
多模态
·
图像文本
·
caption
·
预训练
·
blip
【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型
多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。