Transformer＋Classification学习笔记

不要麻酱2024-05-15 9:52

论文名称：An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale

$2112.11010$ MPViT: Multi-Path Vision Transformer for Dense Prediction (arxiv.org)

参考博客与视频：

Vision Transformer 超详细解读 (原理分析+代码解读) (二) - 知乎 (zhihu.com)

11.1 Vision Transformer(vit)网络详解_哔哩哔哩_bilibili

一、图片预处理：分块与降噪

先把图片展平成由若干块组成的2D序列，每个块的维度为（P1 x P2, C)，其中 P 是块大小，块大小为 P1 x P2，C 是 channel 数。

故有 n 个 token。

python 复制代码

x = rearrange(img, 'b c (h p1) (w p2) -> b (h w) (p1 p2 c)', p1=p, p2=p)

二、patch embedding + class_token

法1.使用全连接层的patch embedding

法2.卷积 + flattening(剩去分块)

三、Position Encoding

上一篇：通过postMessage进行跨域（同源同 IP但是端口不同）、或者跨源(两个页面 IP 不同的网页)直接传值调用

下一篇：lua面向对象

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 09AI科技热点日报 | 2026年07月01日 102026开年大模型最新对比解析及场景落地指南