Transformer+Classification学习笔记

论文名称:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

[2112.11010] MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频:

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理:分块与降噪

先把图片展平成由若干块组成的2D序列,每个块的维度为(P1 x P2, C),其中 P 是块大小,块大小为 P1 x P2,C 是 channel 数。

故有 n 个 token。

python 复制代码
x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

相关推荐
2401_841495647 分钟前
【自然语言处理】处理 GBK 编码汉字的算法设计
人工智能·python·自然语言处理·校验·文件读写·gbk编码与解码·批量过滤
怎么全是重名12 分钟前
Survey on semantic segmentation using deep learning techniques
图像处理·人工智能·深度学习·图像分割
老蒋新思维14 分钟前
创客匠人:工作流嵌入式智能体,重构知识变现的效率底层
大数据·服务器·人工智能·重构·创始人ip·创客匠人·知识变现
2501_9419820514 分钟前
展望:RPA与AI在企业微信自动化领域的未来融合趋势
人工智能·企业微信·rpa
小脉传媒GEO优化15 分钟前
GEO优化数据统计系统DeepAnaX系统详细介绍:开启AI数据智能分析新范式
人工智能·信息可视化
爱笑的眼睛1117 分钟前
MLflow Tracking API:超越实验记录,构建可复现的机器学习工作流
java·人工智能·python·ai
世岩清上18 分钟前
以技术预研为引擎,驱动脑机接口等未来产业研发与应用创新发展
人工智能·脑机接口·未来产业
YuforiaCode19 分钟前
黑马AI大模型神经网络与深度学习课程笔记(个人记录、仅供参考)
人工智能·笔记·深度学习
Christo320 分钟前
NIPS-2022《Wasserstein K-means for clustering probability distributions》
人工智能·算法·机器学习·数据挖掘·kmeans