大模型-详解 Vision Transformer (ViT)
摘要
一、介绍
二、相关工作
三、方法
3.1 图像块嵌入 (Patch Embeddings)
3.2 可学习的嵌入 (Learnable Embedding)
3.3 位置嵌入 (Position Embeddings)
3.4 Transformer 编码器
3.5 ViT 张量维度变化举例
3.6 归纳偏置与混合架构
3.7 微调及更高分辨率
3.8 超参数
四、实验






大模型-详解 Vision Transformer (ViT)
摘要
一、介绍
二、相关工作
三、方法
3.1 图像块嵌入 (Patch Embeddings)
3.2 可学习的嵌入 (Learnable Embedding)
3.3 位置嵌入 (Position Embeddings)
3.4 Transformer 编码器
3.5 ViT 张量维度变化举例
3.6 归纳偏置与混合架构
3.7 微调及更高分辨率
3.8 超参数
四、实验





