手撕Vision Transformer -- Day1 -- 基础原理

手撕Vision Transformer -- Day1 -- 基础原理

目录

  • [手撕Vision Transformer -- Day1 -- 基础原理](#手撕Vision Transformer -- Day1 -- 基础原理)
  • [Vision Transformer (ViT) 模型原理](#Vision Transformer (ViT) 模型原理)
    • [1. Vit 网络结构图](#1. Vit 网络结构图)
    • [2. 背景](#2. 背景)
    • [3. 模型架构](#3. 模型架构)
      • [3.1 图像切块(Patch Embedding)](#3.1 图像切块(Patch Embedding))
      • [3.2 添加位置编码(Positional Encoding)](#3.2 添加位置编码(Positional Encoding))
      • [3.3 Transformer编码器(Transformer Encoder)](#3.3 Transformer编码器(Transformer Encoder))
      • [3.4 分类头(Classification Head)](#3.4 分类头(Classification Head))
    • [4. ViT的优势](#4. ViT的优势)
    • [5. ViT的缺点](#5. ViT的缺点)
    • [6. 总结](#6. 总结)
    • 参考

Vision Transformer (ViT) 模型原理

1. Vit 网络结构图


Vit 网络结构

2. 背景

ViT(Vision Transformer)是2020年由Google提出的一种新型图像分类模型,成功地将Transformer架构应用于计算机视觉任务,挑战了传统的卷积神经网络(CNN)。ViT的核心思想是将图像分割成小块(patch),并将这些patch视为一维的序列输入Transformer模型。

3. 模型架构

ViT模型主要包括以下几个步骤:

3.1 图像切块(Patch Embedding)

  • 图像分块 :将输入图像分成固定大小的patches。假设输入图像大小为 ( H × W × C H \times W \times C H×W×C )(H为高度,W为宽度,C为通道数),将图像划分为 ( P × P P \times P P×P ) 大小的patches。
  • Flatten :每个patch的像素值被展平成一维向量,形状为 ( ( P × P × C P \times P \times C P×P×C) )。
  • 线性映射:这些一维向量通过一个线性层映射到一个固定的维度 ( D ),即生成一个 ( D ) 维的嵌入向量。

3.2 添加位置编码(Positional Encoding)

  • 由于Transformer 模型没有像CNN那样的局部感知机制,因此必须为每个patch添加位置信息。
  • 位置编码 :为每个patch的嵌入向量添加一个固定的、学习到 的位置编码,使得模型能够区分不同位置的patch(我们采取的可学习的参数)。

3.3 Transformer编码器(Transformer Encoder)

  • ViT使用标准的Transformer编码器结构,包含多个自注意力层和前馈神经网络层。
    • 自注意力机制(Self-Attention):每个patch嵌入向量通过自注意力机制与其他patch的嵌入向量进行交互,以捕捉全局信息。
    • 前馈神经网络:自注意力层的输出经过前馈神经网络(Feed-Forward Network,FFN)进行非线性变换。
    • 层归一化和残差连接:每个Transformer层使用层归一化(Layer Normalization)和残差连接(Residual Connection)。

3.4 分类头(Classification Head)

  • 在经过多个Transformer编码器层后,取出[CLS] token(分类标记)对应的输出作为图像的表示。
  • 最后,经过一个全连接层(FC layer)进行分类。

4. ViT的优势

  • 全局感知:ViT能够通过自注意力机制捕捉图像中全局的依赖关系,而不是像CNN那样依赖局部感知。
  • Transformer的优势:Transformer架构在自然语言处理(NLP)中表现优异,ViT将其应用到计算机视觉任务中,能够显著提高性能。

5. ViT的缺点

  • 数据依赖性:ViT的性能依赖于大规模的训练数据集,通常需要预训练的模型和大量的计算资源。
  • 计算成本:Transformer模型的自注意力计算复杂度为 ( O(N^2) ),其中 ( N ) 是patch的数量,这使得ViT在处理大尺寸图像时的计算开销较大。

6. 总结

ViT通过将图像切分成小块并将其输入到Transformer中,成功地克服了传统CNN的局限,带来了较为显著的性能提升。尽管ViT在数据和计算资源上有较高要求,但它为视觉任务的研究提供了一个新的思路,展示了Transformer在图像处理上的巨大潜力。

参考

视频讲解:【Sora重要技术】复现ViT(Vision Transformer)模型_哔哩哔哩_bilibili

相关推荐
Deepoch15 分钟前
智能升级新范式:Deepoc开发板如何重塑康复辅具产业生态
人工智能·具身模型·deepoc·智能轮椅
赋创小助手15 分钟前
融合与跃迁:NVIDIA、Groq 与下一代 AI 推理架构的博弈与机遇
服务器·人工智能·深度学习·神经网络·语言模型·自然语言处理·架构
静听松涛13320 分钟前
多智能体协作中的通信协议演化
人工智能
基咯咯29 分钟前
Google Health AI发布MedASR:Conformer 医疗语音识别如何服务临床口述与对话转写
人工智能
古城小栈33 分钟前
Rust变量设计核心:默认不可变与mut显式可变的深层逻辑
算法·rust
白日做梦Q1 小时前
深度学习模型评估指标深度解析:不止于准确率的科研量化方法
人工智能·深度学习
电商API&Tina1 小时前
跨境电商 API 对接指南:亚马逊 + 速卖通接口调用全流程
大数据·服务器·数据库·python·算法·json·图搜索算法
confiself1 小时前
MAI-UI技术报告学习
学习
Yyyyy123jsjs1 小时前
外汇Tick数据交易时段详解与Python实战分析
人工智能·python·区块链
张彦峰ZYF1 小时前
提示词工程实战指南:从概念认知到可验证的高质量 Prompt 设计
人工智能·提示词工程实战指南·高质量 prompt 设计