《------往期经典推荐------》
二、机器学习实战专栏【链接】 ,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】,持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~
《------正文------》
目录
- 视觉变换器与卷积神经网络
- 引言
- [示例:CNN与Vision Transformer](#示例:CNN与Vision Transformer)
- **结论**
视觉变换器与卷积神经网络
引言
Vision Transformer (ViT) 是一种将Transformer架构应用于计算机视觉任务的模型,最初由Google在2020年提出。不同于传统的卷积神经网络(CNNs),ViT完全依赖于自注意力机制来处理图像数据。具体来说,图像首先被分割成固定大小的块,每个块被视为一个"词",然后通过线性嵌入映射到一个高维空间中,类似于自然语言处理中的词嵌入过程。这些嵌入向量随后被送入标准的Transformer编码器进行处理,以学习图像的表示。ViT展示了在大规模数据集上训练时,它能够取得与先进CNN模型相媲美的性能,同时减少了对归纳偏置(如局部性和翻译等变性)的依赖。这一方法为计算机视觉领域引入了新的研究方向,并促进了后续一系列基于Transformer的视觉模型的发展。
由于其计算效率和可扩展性,Transformer已成为NLP中的首选模型。在计算机视觉中,卷积神经网络(CNN)架构仍然占主导地位,但一些研究人员试图将CNN与自我注意力结合起来。作者尝试将标准的Transformer直接应用于图像,发现当在中等规模的数据集上训练时,与ResNet类架构相比,模型的准确性适中。然而,当在更大的数据集上训练时,Vision Transformer(ViT)取得了优异的成绩,在多个图像识别基准上接近或超过了最先进的水平。

图1(摘自原始论文)描述了一个模型,该模型通过将2D图像转换为扁平的2D补丁序列来处理2D图像。然后,补丁被映射到一个恒定的潜在向量大小与可训练的线性投影。一个可学习的嵌入被预先添加到补丁的序列中,并且其在Transformer编码器的输出处的状态用作图像表示。然后将图像表示通过分类头进行预训练或微调。添加位置嵌入以保留位置信息,并且嵌入向量的序列用作Transformer编码器的输入,该编码器由多头自注意和MLP块的交替层组成。
在过去,CNN长期以来一直是图像处理任务的首选。它们擅长通过卷积层捕获局部空间模式,从而实现分层特征提取。CNN擅长从大量图像数据中学习,并在图像分类、对象检测和分割等任务中取得了显着的成功。
虽然CNN在各种计算机视觉任务中有着良好的记录,并有效地处理大规模数据集,但Vision Transformers在全局依赖性和上下文理解至关重要的场景中具有优势。然而,Vision Transformers通常需要更大量的训练数据才能实现与CNN相当的性能。此外,由于其可并行化的性质,CNN在计算上是高效的,这使得它们对于实时和资源受限的应用更实用。
示例:CNN与Vision Transformer
在本节中,我们将使用CNN和vision Transformer方法,在Kaggle中提供的猫和狗数据集上训练视觉分类器。首先,我们将从Kaggle下载包含25000个RGB图像的猫和狗数据集。
python
from kaggle.api.kaggle_api_extended import KaggleApi
api = KaggleApi()
api.authenticate()
# we write to the current directory with './'
api.dataset_download_files('karakaggle/kaggle-cat-vs-dog-dataset', path='./')
下载文件后,可以使用以下命令解压缩文件。
python
!unzip -qq kaggle-cat-vs-dog-dataset.zip
!rm -r kaggle-cat-vs-dog-dataset.zip
使用以下命令克隆vision-transformer GitHub存储库。这个存储库在vision_tr目录下包含了VisionTransformer所需的所有代码。
python
!git clone https://github.com/RustamyF/vision-transformer.git
!mv vision-transformer/vision_tr .
下载的数据需要清理和准备用于训练我们的图像分类器。创建以下实用程序函数以清理和加载Pytorch的DataLoader格式的数据。
python
import torch.nn as nn
import torch
import torch.optim as optim
from torchvision import datasets, models, transforms
from torch.utils.data import DataLoader, Dataset
from PIL import Image
from sklearn.model_selection import train_test_split
import os
class LoadData:
def __init__(self):
self.cat_path = 'kagglecatsanddogs_3367a/PetImages/Cat'
self.dog_path = 'kagglecatsanddogs_3367a/PetImages/Dog'
def delete_non_jpeg_files(self, directory):
for filename in os.listdir(directory):
if not filename.endswith('.jpg') and not filename.endswith('.jpeg'):
file_path = os.path.join(directory, filename)
try:
if os.path.isfile(file_path) or os.path.islink(file_path):
os.unlink(file_path)
elif os.path.isdir(file_path):
shutil.rmtree(file_path)
print('deleted', file_path)
except Exception as e:
print('Failed to delete %s. Reason: %s' % (file_path, e))
def data(self):
self.delete_non_jpeg_files(self.dog_path)
self.delete_non_jpeg_files(self.cat_path)
dog_list = os.listdir(self.dog_path)
dog_list = [(os.path.join(self.dog_path, i), 1) for i in dog_list]
cat_list = os.listdir(self.cat_path)
cat_list = [(os.path.join(self.cat_path, i), 0) for i in cat_list]
total_list = cat_list + dog_list
train_list, test_list = train_test_split(total_list, test_size=0.2)
train_list, val_list = train_test_split(train_list, test_size=0.2)
print('train list', len(train_list))
print('test list', len(test_list))
print('val list', len(val_list))
return train_list, test_list, val_list
# data Augumentation
transform = transforms.Compose([
transforms.Resize((224, 224)),
transforms.RandomResizedCrop(224),
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
])
class dataset(torch.utils.data.Dataset):
def __init__(self, file_list, transform=None):
self.file_list = file_list
self.transform = transform
# dataset length
def __len__(self):
self.filelength = len(self.file_list)
return self.filelength
# load an one of images
def __getitem__(self, idx):
img_path, label = self.file_list[idx]
img = Image.open(img_path).convert('RGB')
img_transformed = self.transform(img)
return img_transformed, label
CNN方法
该图像分类器的CNN模型由三层2D卷积组成,内核大小为3,步幅为2,最大池化层为2。在卷积层之后,有两个完全连接的层,每个层由10个节点组成。下面是一个代码片段,说明了这个结构:
python
class Cnn(nn.Module):
def __init__(self):
super(Cnn, self).__init__()
self.layer1 = nn.Sequential(
nn.Conv2d(3, 16, kernel_size=3, padding=0, stride=2),
nn.BatchNorm2d(16),
nn.ReLU(),
nn.MaxPool2d(2)
)
self.layer2 = nn.Sequential(
nn.Conv2d(16, 32, kernel_size=3, padding=0, stride=2),
nn.BatchNorm2d(32),
nn.ReLU(),
nn.MaxPool2d(2)
)
self.layer3 = nn.Sequential(
nn.Conv2d(32, 64, kernel_size=3, padding=0, stride=2),
nn.BatchNorm2d(64),
nn.ReLU(),
nn.MaxPool2d(2)
)
self.fc1 = nn.Linear(3 * 3 * 64, 10)
self.dropout = nn.Dropout(0.5)
self.fc2 = nn.Linear(10, 2)
self.relu = nn.ReLU()
def forward(self, x):
out = self.layer1(x)
out = self.layer2(out)
out = self.layer3(out)
out = out.view(out.size(0), -1)
out = self.relu(self.fc1(out))
out = self.fc2(out)
return out
训练进行了10个训练时期。以下是每个epoch的训练循环的结果。

VisionTransformer方法
Vision Transformer架构设计为可根据特定要求进行调整的自定义尺寸。对于这种大小的图像数据集,这种架构仍然很大。
python
from vision_tr.simple_vit import ViT
model = ViT(
image_size=224,
patch_size=32,
num_classes=2,
dim=128,
depth=12,
heads=8,
mlp_dim=1024,
dropout=0.1,
emb_dropout=0.1,
).to(device)
VisionTransformer中的每个参数都起着关键作用,如下所述:
image_size=224
:此参数指定模型输入图像的所需大小(宽度和高度)。在这种情况下,图像的大小预期为224x224像素。patch_size=32
:图像被分成更小的块,该参数定义每个块的大小(宽度和高度)。在这种情况下,每个补丁是32x32像素。num_classes=2
:该参数表示分类任务中的类的数量。在这个例子中,模型被设计为将输入分为两类(猫和狗)。dim=128
:指定模型中嵌入向量的维数。嵌入捕获每个图像块的表示。depth=12
:此参数定义Vision Transformer模型(编码器模型)中的深度或层数。更高的深度允许更复杂的特征提取。heads=8
:该参数表示模型的自注意机制中的注意头数。mlp_dim=1024
:指定模型中多层感知器(MLP)隐藏层的维度。MLP负责在自我注意之后转换令牌表示。dropout=0.1
:此参数控制dropout率,这是一种用于防止过拟合的正则化技术。它在训练过程中随机将一部分输入单位设置为0。emb_dropout = 0.1:它定义了专门应用于令牌嵌入的丢弃率。
这种dropout有助于防止在训练过程中过度依赖特定的token。
用于分类任务的VisionTransformer的训练进行了20个epoch(而不是CNN使用的10个epoch),因为训练损失的收敛速度很慢。以下是每个时期的训练循环结果。

CNN方法在10个时期内达到了75%的准确率,而视觉Transformer模型达到了69%的准确率,并且需要更长的时间来训练。
结论
总之,当比较CNN和Vision Transformer模型时,在模型大小、内存要求、准确性和性能方面存在显著差异。CNN模型传统上以其紧凑的尺寸和高效的内存利用率而闻名,使其适用于资源受限的环境。它们已被证明在图像处理任务中非常有效,并在各种计算机视觉应用中表现出出色的精度。另一方面,Vision Transformers提供了一种强大的方法来捕获图像中的全局依赖关系和上下文理解,从而提高了某些任务的性能。然而,与CNN相比,Vision Transformers往往具有更大的模型大小和更高的内存要求。虽然它们可以实现令人印象深刻的准确性,特别是在处理较大的数据集时,但计算需求可能会限制它们在资源有限的情况下的实用性。
最终,CNN和Vision Transformer模型之间的选择取决于手头任务的具体要求,考虑可用资源,数据集大小以及模型复杂性,准确性和性能之间的权衡等因素。随着计算机视觉领域的不断发展,预计这两种架构都会有进一步的进步,使研究人员和从业人员能够根据他们的特定需求和限制做出更明智的选择。

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!