Transformer+Classification学习笔记

论文名称:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

2112.11010 MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频:

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理:分块与降噪

先把图片展平成由若干块组成的2D序列,每个块的维度为(P1 x P2, C),其中 P 是块大小,块大小为 P1 x P2,C 是 channel 数。

故有 n 个 token。

python 复制代码
x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

相关推荐
wan55cn@126.com几秒前
调试协作之歌
人工智能·笔记·微信
梓色系8 分钟前
Spring AI 实战:从零搭建 MCP 客户端与服务端,让大模型拥有“手脚“
java·人工智能·spring
“码”力全开10 分钟前
解构企业级安防中台:基于Docker容器化与GB28181/RTSP多协议汇聚的边缘计算AI视频管理平台(全量源码交付)
人工智能·docker·边缘计算
GeeLark16 分钟前
TikTok自动化 我们有在优化
人工智能
秦时星星17 分钟前
Spring AI + FastMCP 跨语言集成踩坑实录
java·人工智能·spring
码农小白AI17 分钟前
单据审核难度大?IACheck AI 报告审核联动全流程高效核验
人工智能
聚城云-GeecityCloud18 分钟前
数字化破局|不分物业规模,皆可全新升级
大数据·人工智能
小白考证进阶中19 分钟前
阿里云ACA大模型|6月15日课程和大纲大改⚠️
人工智能·阿里云·阿里云认证·阿里云acp备考·阿里云aca证书·ai证书·阿里云aca大模型
Esaka_Forever22 分钟前
FAISS (Facebook AI Similarity Search)
人工智能·faiss