VIT的MLP的个人理解

VIT的多头自注意力机制,是将一个向量分成几段,每段拿去和别的patch做自注意力交互也就是多头,然后将每个头交互后得到的向量再拼接成一个向量,这样的话是在广度上进行交互的,但是作为一个整体没有学习到,因此引入mlp,每个向量在深度上再学习。

比喻:一根木头被锯开12段,每段被厂家拿去加工(每个厂家也会和别的厂家进行交流,厂家a从b厂家c厂家拿一部分他们的料加工做出自己的木材,厂家b也从厂家a,c拿出他们家的料),最终12个厂家生成12个木头,最后拼接在一起。但是拼接一起不好看,需要有个更牛逼的人进一步优化这个木材,这就是MLP,也就是(自注意负责横向交流,MLP负责纵向深挖)。

相关推荐
盼小辉丶10 天前
视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
深度学习·计算机视觉·transformer·vit
guoketg25 天前
Vision Transformer(ViT)的讲解和面试题目讲解
人工智能·python·深度学习·vit
盼小辉丶1 个月前
视觉Transformer实战 | Pooling-based Vision Transformer(PiT)详解与实现
深度学习·计算机视觉·transformer·vit
四口鲸鱼爱吃盐8 个月前
BMVC2023 | 多样化高层特征以提升对抗迁移性
人工智能·深度学习·cnn·vit·对抗攻击·迁移攻击
飞火流星0202710 个月前
BERT、T5、ViT 和 GPT-3 架构概述及代表性应用
人工智能·gpt-3·bert·t5·vit·人工智能模型架构
紫雾凌寒1 年前
深度学习|MAE技术全景图:自监督学习的“掩码魔法“如何重塑AI基础
人工智能·深度学习·计算机视觉·自监督学习·vit·视频理解·mae
紫雾凌寒1 年前
计算机视觉|Swin Transformer:视觉 Transformer 的新方向
人工智能·深度学习·计算机视觉·transformer·vit·swintransformer·视频理解
紫雾凌寒1 年前
计算机视觉|ViT详解:打破视觉与语言界限
人工智能·深度学习·计算机视觉·transformer·vit·视频理解
阿_旭1 年前
VisionTransformer(ViT)与CNN卷积神经网络的对比
人工智能·神经网络·cnn·vit