技术栈

视觉编码器

威化饼的一隅
7 个月前
人工智能·计算机视觉·大模型·transformer·vit·多模态模型·视觉编码器
ViT模型技术学习最近多模态模型特别火,模型也越来越小,MiniCPM-2.6只有8B,里面采用的图片编码器是SigLipViT模型,一起从头学习ViT和Transformer!本文记录一下学习过程,所以是自上而下的写,从ViT拆到Transformer。
大数据AI人工智能培训专家培训讲师叶梓
1 年前
人工智能·深度学习·计算机视觉·语言模型·自然语言处理·大模型·视觉编码器
BRAVE:扩展视觉编码能力,推动视觉-语言模型发展视觉-语言模型(VLMs)在理解和生成涉及视觉与文本的任务上取得了显著进展,它们在理解和生成结合视觉与文本信息的任务中扮演着重要角色。然而,这些模型的性能往往受限于其视觉编码器的能力。例如,现有的一些模型可能对某些图像特征视而不见,或者在处理图像时产生视觉幻觉,这些局限严重制约了VLMs在复杂场景中的应用。