VIT的MLP的个人理解

logic_52026-02-03 13:27

VIT的多头自注意力机制，是将一个向量分成几段，每段拿去和别的patch做自注意力交互也就是多头，然后将每个头交互后得到的向量再拼接成一个向量，这样的话是在广度上进行交互的，但是作为一个整体没有学习到，因此引入mlp，每个向量在深度上再学习。

比喻：一根木头被锯开12段，每段被厂家拿去加工（每个厂家也会和别的厂家进行交流，厂家a从b厂家c厂家拿一部分他们的料加工做出自己的木材，厂家b也从厂家a，c拿出他们家的料），最终12个厂家生成12个木头，最后拼接在一起。但是拼接一起不好看，需要有个更牛逼的人进一步优化这个木材，这就是MLP，也就是（自注意负责横向交流，MLP负责纵向深挖）。