Transformer+Classification学习笔记

论文名称:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

[2112.11010] MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频:

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理:分块与降噪

先把图片展平成由若干块组成的2D序列,每个块的维度为(P1 x P2, C),其中 P 是块大小,块大小为 P1 x P2,C 是 channel 数。

故有 n 个 token。

python 复制代码
x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

相关推荐
AI_567816 分钟前
CI/CD自动化部署革命:“三分钟流水线“背后的工程实践
java·开发语言·人工智能·ai·neo4j
李昊哲小课17 分钟前
cuda12 cudnn9 tensorflow 显卡加速
人工智能·python·深度学习·机器学习·tensorflow
数智前线17 分钟前
卡在触觉的AI,一目科技让机器人从“看世界”到“摸世界”
人工智能
2501_9389312522 分钟前
新技术如何重构AI营销获客的底层逻辑与竞争格局
人工智能·重构
MoMoMo2510091 小时前
WPP Media(群邑)DOOH 解决方案 重构数字户外广告价值
人工智能·重构·群邑·户外广告
却道天凉_好个秋1 小时前
OpenCV(二十四):图像滤波
人工智能·opencv·计算机视觉
Learn Beyond Limits1 小时前
Data Mining Tasks|数据挖掘任务
人工智能·python·神经网络·算法·机器学习·ai·数据挖掘
lisw051 小时前
计算生物学的学科体系!
大数据·人工智能·机器学习
cxr8282 小时前
深度解析顶级 Doc Agent System Prompt 的架构与实践
网络·人工智能·架构·prompt·ai智能体·ai赋能·上下文工程
TGITCIC2 小时前
User Prompt 与 System Prompt:大模型沟通的“双引擎”机制深度拆解
人工智能·大模型·prompt·提示词·ai大模型·大模型ai·上下文工程