VIT的MLP的个人理解

VIT的多头自注意力机制,是将一个向量分成几段,每段拿去和别的patch做自注意力交互也就是多头,然后将每个头交互后得到的向量再拼接成一个向量,这样的话是在广度上进行交互的,但是作为一个整体没有学习到,因此引入mlp,每个向量在深度上再学习。

比喻:一根木头被锯开12段,每段被厂家拿去加工(每个厂家也会和别的厂家进行交流,厂家a从b厂家c厂家拿一部分他们的料加工做出自己的木材,厂家b也从厂家a,c拿出他们家的料),最终12个厂家生成12个木头,最后拼接在一起。但是拼接一起不好看,需要有个更牛逼的人进一步优化这个木材,这就是MLP,也就是(自注意负责横向交流,MLP负责纵向深挖)。

相关推荐
mex_wayne4 天前
基础学习(15): dinov3
自监督·vit·dinov3·gram ancher·rope-box
大江东去浪淘尽千古风流人物10 天前
【HaMeR】全Transformer架构的单目3D手部网格重建:ViT-H骨干+跨注意力MANO解码器源码深度解析
深度学习·3d·transformer·vit·手部重建·mano
这是谁的博客?13 天前
多模态大模型技术深度解析:从 CLIP 到 LLaVA 的视觉语言融合原理
ai·transformer·多模态·clip·视觉语言模型·vit·llava
羊小猪~~2 个月前
LLM--VIT简介
大模型·llm·nlp·多模态·多模态大模型·vit·ai算法
心 爱心 爱2 个月前
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE 论文精读
计算机视觉·transformer·图像识别·vit·特征提取·图像特征提取
这张生成的图像能检测吗3 个月前
(论文速读)PatchTST:通道无关补丁时间序列变压器
人工智能·深度学习·神经网络·计算机视觉·注意力机制·vit·时序模型
Together_CZ4 个月前
ViT-5: Vision Transformers for The Mid-2020s—— 面向2020年代中期的视觉Transformer
人工智能·深度学习·ai·transformer·vit·vit-5·面向2020年代中期的视觉
盼小辉丶5 个月前
视觉Transformer实战 | Data-efficient image Transformer(DeiT)详解与实现
深度学习·计算机视觉·transformer·vit
guoketg5 个月前
Vision Transformer(ViT)的讲解和面试题目讲解
人工智能·python·深度学习·vit