图像文本 - 图像文本技术,学习,经验文章

zy_destiny

3 年前

【多模态】BLIP——统一视觉语言理解和生成的引导语言图像预训练模型多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。而多模态研究的就是这些不同类型的数据的融合的问题。目前大多数工作中，只处理图像和文本形式的数据，即把视频数据转为图像，把音频数据转为文本格式。