动手学深度学习（Pytorch版）代码实践 -计算机视觉-36图像增广

6 图片增广

python 复制代码
import matplotlib.pyplot as plt
import numpy as np
import torch 
import torchvision
from d2l import torch as d2l
from torch import nn 
from PIL import Image
import liliPytorch as lp
from torch.utils.data import Dataset, DataLoader

plt.figure('cat')
img = Image.open('../limuPytorch/images/cat.jpg')
plt.imshow(img)

def apply(img, aug, num_rows=2, num_cols=4, scale=1.5):
    """
    img: 输入的图像。
    aug: 增强函数，接受一个图像作为输入并返回一个增强后的图像。
    num_rows: 显示增强后图像的行数，默认值为2。
    num_cols: 显示增强后图像的列数，默认值为4。
    scale: 显示图像的缩放比例，默认值为1.5。
    """
    # 应用增强函数 aug 到输入图像 img 上 num_rows * num_cols 次
    Y = [aug(img) for _ in range(num_rows * num_cols)]
    # 将增强后的图像列表 Y 以 num_rows 行和 num_cols 列的网格形式显示，缩放比例为 scale。
    d2l.show_images(Y, num_rows, num_cols, scale=scale)
    
# 图像各有50%的几率翻转
# 左右翻转,通常不会改变对象的类别。这是最早和最广泛使用的图像增广方法之一。
apply(img,torchvision.transforms.RandomHorizontalFlip())

# 上下翻转,不如左右图像翻转那样常用。
apply(img,torchvision.transforms.RandomVerticalFlip())

# 随机裁减
# (200，200）是图片的大小，scale表示随机裁减为原来的比例，ratio是长宽比
shape_aug = torchvision.transforms.RandomResizedCrop(
    (200,200),
    scale=(0.1,1),
    ratio=(0.5,2), 
)

apply(img,shape_aug)

# 改变颜色
# 四个方面：亮度、对比度、饱和度和色调
# 亮度（brightness）、对比度（contrast）、饱和度（saturation）和色调（hue）
# 亮度
# 随机值为原始图像的50%到150%之间。
apply(img, 
      torchvision.transforms.ColorJitter(
        brightness=0.5, 
        contrast=0, 
        saturation=0, 
        hue=0
        )
)

#色调
apply(img, 
      torchvision.transforms.ColorJitter(
        brightness=0, 
        contrast=0, 
        saturation=0, 
        hue=0.5
        )
)

#同时随机更改图像的亮度（brightness）、对比度（contrast）、饱和度（saturation）和色调（hue）
color_aug = torchvision.transforms.ColorJitter(
    brightness=0.5, 
    contrast=0.5, 
    saturation=0.5, 
    hue=0.5
    )
apply(img, color_aug)

# 结合多种图像增广方法
augs = torchvision.transforms.Compose([
    torchvision.transforms.RandomHorizontalFlip(), color_aug, shape_aug])
apply(img, augs)
# plt.show()

# 使用图像增广进行训练
all_images = torchvision.datasets.CIFAR10(train=True, root="../data",download=True)

#展示前32个训练图像
d2l.show_images([all_images[i][0] for i in range(32)], 4, 8, scale=0.8)
plt.show()

# 使用ToTensor实例将一批图像转换为深度学习框架所要求的格式，
# 即形状为（批量大小，通道数，高度，宽度）的32位浮点数，取值范围为0～1。
train_augs = torchvision.transforms.Compose([
     torchvision.transforms.RandomHorizontalFlip(),
     torchvision.transforms.ToTensor()])

test_augs = torchvision.transforms.Compose([
     torchvision.transforms.ToTensor()])

#测试
def load_cifar10(is_train, augs, batch_size):
    dataset = torchvision.datasets.CIFAR10(root="../data", train=is_train,
                                           transform=augs, download=True)
    dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,
                    shuffle=is_train, num_workers=4)
    return dataloader

net = d2l.resnet18(10, 3)
batch_size = 256
lr=0.001
num_epochs = 10
train_iter = load_cifar10(True, train_augs, batch_size)
test_iter = load_cifar10(False, test_augs, batch_size)

lp.train_ch6(net, train_iter, test_iter, num_epochs, lr, lp.try_gpu())
plt.show()