视觉编码器

威化饼的一隅

ViT模型技术学习最近多模态模型特别火，模型也越来越小，MiniCPM-2.6只有8B，里面采用的图片编码器是SigLipViT模型，一起从头学习ViT和Transformer！本文记录一下学习过程，所以是自上而下的写，从ViT拆到Transformer。

大数据AI人工智能培训专家培训讲师叶梓

BRAVE：扩展视觉编码能力，推动视觉-语言模型发展视觉-语言模型（VLMs）在理解和生成涉及视觉与文本的任务上取得了显著进展，它们在理解和生成结合视觉与文本信息的任务中扮演着重要角色。然而，这些模型的性能往往受限于其视觉编码器的能力。例如，现有的一些模型可能对某些图像特征视而不见，或者在处理图像时产生视觉幻觉，这些局限严重制约了VLMs在复杂场景中的应用。

我是有底线的