Transformer+Classification学习笔记

论文名称:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

[2112.11010] MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频:

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理:分块与降噪

先把图片展平成由若干块组成的2D序列,每个块的维度为(P1 x P2, C),其中 P 是块大小,块大小为 P1 x P2,C 是 channel 数。

故有 n 个 token。

python 复制代码
x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

相关推荐
Coovally AI模型快速验证24 分钟前
农田扫描提速37%!基于检测置信度的无人机“智能抽查”路径规划,Coovally一键加速模型落地
深度学习·算法·yolo·计算机视觉·transformer·无人机
媒体人8881 小时前
GEO 优化专家孟庆涛:技术破壁者重构 AI 时代搜索逻辑
大数据·人工智能
小菜AI科技1 小时前
Windsurf 评测:这款 人工智能 IDE 是你需要的颠覆性工具吗?
人工智能
RaymondZhao341 小时前
【全面推导】策略梯度算法:公式、偏差方差与进化
人工智能·深度学习·算法·机器学习·chatgpt
yzx9910132 小时前
小程序开发APP
开发语言·人工智能·python·yolo
AKAMAI2 小时前
通过自动化本地计算磁盘与块存储卷加密保护数据安全
人工智能·云计算
无规则ai2 小时前
动手学深度学习(pytorch版):第四章节—多层感知机(5)权重衰减
人工智能·pytorch·python·深度学习
zskj_zhyl3 小时前
家庭健康能量站:微高压氧舱结合艾灸机器人,智享双重养生SPA
人工智能·科技·安全·机器人
朗迪锋3 小时前
数字孪生 :提高制造生产力的智能方法
大数据·人工智能·制造
网安INF3 小时前
【论文阅读】-《HopSkipJumpAttack: A Query-Efficient Decision-Based Attack》
论文阅读·人工智能·深度学习·网络安全·对抗攻击