VIT的多头自注意力机制,是将一个向量分成几段,每段拿去和别的patch做自注意力交互也就是多头,然后将每个头交互后得到的向量再拼接成一个向量,这样的话是在广度上进行交互的,但是作为一个整体没有学习到,因此引入mlp,每个向量在深度上再学习。
比喻:一根木头被锯开12段,每段被厂家拿去加工(每个厂家也会和别的厂家进行交流,厂家a从b厂家c厂家拿一部分他们的料加工做出自己的木材,厂家b也从厂家a,c拿出他们家的料),最终12个厂家生成12个木头,最后拼接在一起。但是拼接一起不好看,需要有个更牛逼的人进一步优化这个木材,这就是MLP,也就是(自注意负责横向交流,MLP负责纵向深挖)。