Transformer+Classification学习笔记

论文名称:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

[2112.11010] MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频:

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理:分块与降噪

先把图片展平成由若干块组成的2D序列,每个块的维度为(P1 x P2, C),其中 P 是块大小,块大小为 P1 x P2,C 是 channel 数。

故有 n 个 token。

python 复制代码
x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

相关推荐
M17迪Pq:000710 分钟前
学会“做减法”之--用户体验优化
人工智能·贪心算法·产品运营·动态规划·软件工程
闲人编程14 分钟前
深入浅出Transformer:使用Hugging Face库快速上手NLP
python·深度学习·自然语言处理·nlp·transformer·hugging face·codecapsule
教练、我想打篮球15 分钟前
13 pyflink/scala 进行 csv 文件的批处理
人工智能·机器学习
文火冰糖的硅基工坊16 分钟前
[创业之路-702]:“第三次”与“第四次工业革命”的范式跃迁
大数据·人工智能·科技·嵌入式硬件·架构·嵌入式·gpu
XIAO·宝20 分钟前
深度学习------YOLOV1和YOLOV2
人工智能·深度学习·yolo
Jing_jing_X32 分钟前
微信小程序开发踩坑记:从AI工具翻车到找到合适方案
人工智能·ai·小程序·产品运营·个人开发
Antonio91539 分钟前
【图像处理】图片的前向映射与后向映射
图像处理·人工智能·计算机视觉
工藤学编程1 小时前
零基础学AI大模型之RAG技术
人工智能
安替-AnTi2 小时前
PandaWiki:AI 驱动的开源知识库系
人工智能·embedding·检索增强·知识库·rag·查询优化
迦蓝叶2 小时前
JAiRouter v1.0.0 正式发布:企业级 AI 服务网关的开源解决方案
java·运维·人工智能·网关·spring·ai·开源