技术栈
视觉编码器
威化饼的一隅
2 个月前
人工智能
·
计算机视觉
·
大模型
·
transformer
·
vit
·
多模态模型
·
视觉编码器
ViT模型技术学习
最近多模态模型特别火,模型也越来越小,MiniCPM-2.6只有8B,里面采用的图片编码器是SigLipViT模型,一起从头学习ViT和Transformer!本文记录一下学习过程,所以是自上而下的写,从ViT拆到Transformer。
大数据AI人工智能培训专家培训讲师叶梓
6 个月前
人工智能
·
深度学习
·
计算机视觉
·
语言模型
·
自然语言处理
·
大模型
·
视觉编码器
BRAVE:扩展视觉编码能力,推动视觉-语言模型发展
视觉-语言模型(VLMs)在理解和生成涉及视觉与文本的任务上取得了显著进展,它们在理解和生成结合视觉与文本信息的任务中扮演着重要角色。然而,这些模型的性能往往受限于其视觉编码器的能力。例如,现有的一些模型可能对某些图像特征视而不见,或者在处理图像时产生视觉幻觉,这些局限严重制约了VLMs在复杂场景中的应用。