【深度学习】图像识别模型与训练策略

睡不着还睡不醒2025-02-05 11:21

一、预处理与数据增强模块

transforms

transforms通常指torchvision.transforms

1.调整尺寸

transforms.Resize()：将输入图像的尺寸调整为指定的大小

2.裁剪

transforms.CenterCrop()：从图像中心进行裁剪，剪裁出指定大小的区域

transforms.RandomCrop()：随机从图像中裁剪出指定大小的区域，常用于数据增强

3.翻转

transforms.RandomHorizontalFlip()：以一定概率对图像进行水平翻转，这是一种简单有效的数据增强方式，能增加数据集的多样性

transforms.RandomVerticalFlip()：以一定概率对图像进行垂直翻转

4.数据归一化

transforms.Normalize()：对图像数据进行归一化处理，使其符合特定的均值和标准差分布，这有助于模型的训练收敛。

通常对于RGB图像，常见的归一化参数如下：

复制代码

normalize_transform = transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])

5.类型转换

transforms.ToTensor()：将PIL图像或numpy.ndarray 转换为torch.Tensor，并将像素值从[0,255]（如果是8位图像）归一化到[0.0,1.0]

6.组合变换

transforms.Compose()：可以将多个变换操作组合在一起，按顺序依次对图像进行处理。比如先调整大小，再随机裁剪，然后转换为张量，最后归一化

复制代码

transform = transforms.Compose([
    transforms.Resize(256),
    transforms.RandomCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

二、模型选择

推导式

1.列表推导式