动手学深度学习(Pytorch版)代码实践 -计算机视觉-36图像增广

6 图片增广

python 复制代码
import matplotlib.pyplot as plt
import numpy as np
import torch 
import torchvision
from d2l import torch as d2l
from torch import nn 
from PIL import Image
import liliPytorch as lp
from torch.utils.data import Dataset, DataLoader

plt.figure('cat')
img = Image.open('../limuPytorch/images/cat.jpg')
plt.imshow(img)

def apply(img, aug, num_rows=2, num_cols=4, scale=1.5):
    """
    img: 输入的图像。
    aug: 增强函数,接受一个图像作为输入并返回一个增强后的图像。
    num_rows: 显示增强后图像的行数,默认值为2。
    num_cols: 显示增强后图像的列数,默认值为4。
    scale: 显示图像的缩放比例,默认值为1.5。
    """
    # 应用增强函数 aug 到输入图像 img 上 num_rows * num_cols 次
    Y = [aug(img) for _ in range(num_rows * num_cols)]
    # 将增强后的图像列表 Y 以 num_rows 行和 num_cols 列的网格形式显示,缩放比例为 scale。
    d2l.show_images(Y, num_rows, num_cols, scale=scale)
    
# 图像各有50%的几率翻转
# 左右翻转,通常不会改变对象的类别。这是最早和最广泛使用的图像增广方法之一。
apply(img,torchvision.transforms.RandomHorizontalFlip())

# 上下翻转,不如左右图像翻转那样常用。
apply(img,torchvision.transforms.RandomVerticalFlip())

# 随机裁减
# (200,200)是图片的大小,scale表示随机裁减为原来的比例,ratio是长宽比
shape_aug = torchvision.transforms.RandomResizedCrop(
    (200,200),
    scale=(0.1,1),
    ratio=(0.5,2), 
)

apply(img,shape_aug)

# 改变颜色
# 四个方面:亮度、对比度、饱和度和色调
# 亮度(brightness)、对比度(contrast)、饱和度(saturation)和色调(hue)
# 亮度
# 随机值为原始图像的50%到150%之间。
apply(img, 
      torchvision.transforms.ColorJitter(
        brightness=0.5, 
        contrast=0, 
        saturation=0, 
        hue=0
        )
)

#色调
apply(img, 
      torchvision.transforms.ColorJitter(
        brightness=0, 
        contrast=0, 
        saturation=0, 
        hue=0.5
        )
)

#同时随机更改图像的亮度(brightness)、对比度(contrast)、饱和度(saturation)和色调(hue)
color_aug = torchvision.transforms.ColorJitter(
    brightness=0.5, 
    contrast=0.5, 
    saturation=0.5, 
    hue=0.5
    )
apply(img, color_aug)

# 结合多种图像增广方法
augs = torchvision.transforms.Compose([
    torchvision.transforms.RandomHorizontalFlip(), color_aug, shape_aug])
apply(img, augs)
# plt.show()

# 使用图像增广进行训练
all_images = torchvision.datasets.CIFAR10(train=True, root="../data",download=True)

#展示前32个训练图像
d2l.show_images([all_images[i][0] for i in range(32)], 4, 8, scale=0.8)
plt.show()

# 使用ToTensor实例将一批图像转换为深度学习框架所要求的格式,
# 即形状为(批量大小,通道数,高度,宽度)的32位浮点数,取值范围为0~1。
train_augs = torchvision.transforms.Compose([
     torchvision.transforms.RandomHorizontalFlip(),
     torchvision.transforms.ToTensor()])

test_augs = torchvision.transforms.Compose([
     torchvision.transforms.ToTensor()])

#测试
def load_cifar10(is_train, augs, batch_size):
    dataset = torchvision.datasets.CIFAR10(root="../data", train=is_train,
                                           transform=augs, download=True)
    dataloader = torch.utils.data.DataLoader(dataset, batch_size=batch_size,
                    shuffle=is_train, num_workers=4)
    return dataloader

net = d2l.resnet18(10, 3)
batch_size = 256
lr=0.001
num_epochs = 10
train_iter = load_cifar10(True, train_augs, batch_size)
test_iter = load_cifar10(False, test_augs, batch_size)

lp.train_ch6(net, train_iter, test_iter, num_epochs, lr, lp.try_gpu())
plt.show()
相关推荐
小小杨树2 天前
读懂色彩:拍照调色不再难
算法·计算机视觉·配色
程序猿追4 天前
那个右下角的小数字怎么“卡”住我打字——我用 HarmonyOS 自己写了一个字数限制输入框
pytorch·华为·harmonyos
xiao5kou4chang6kai44 天前
MATLAB机器学习、深度学习--从数据预处理到模型训练
深度学习·机器学习·matlab·数据预处理
H__Rick4 天前
自动对焦学习-3
人工智能·学习·计算机视觉
renhongxia14 天前
世界模型作为AGI落地底层底座的作用
人工智能·深度学习·生成对抗网络·自然语言处理·知识图谱·agi
计算机科研狗@OUC4 天前
(cvpr26) AIMDepth: Asymmetric Image-Event Mamba for Monocular Depth Estimation
人工智能·深度学习·计算机视觉
闵孚龙4 天前
《PyTorch 深度修炼》Dataset 和 DataLoader:数据如何喂给模型
人工智能·pytorch·python
qq_366566504 天前
2026最新:5款AI视频口型同步工具实测横评,视频翻译后嘴型对不上的终极解决方案
人工智能·计算机视觉·新媒体运营
梦想三三4 天前
OpenCV银行卡数字识别项目(图像预处理与字符分割)
人工智能·opencv·计算机视觉