深度学习(13)-PyTorch 数据转换

在 PyTorch 中,数据转换是一种在加载数据时对数据进行处理的机制,将原始数据转换成适合模型训练的格式,主要通过 torchvision.transforms 提供的工具完成。

数据转换不仅可以实现基本的数据预处理(如归一化、大小调整等),还能帮助进行数据增强(如随机裁剪、翻转等),提高模型的泛化能力。

1. 为什么需要数据转换?

数据预处理

  • 调整数据格式、大小和范围,使其适合模型输入。
  • 例如,图像需要调整为固定大小、张量格式并归一化到 0,1

数据增强

  • 在训练时对数据进行变换,以增加多样性。
  • 例如,通过随机旋转、翻转和裁剪增加数据样本的变种,避免过拟合。

灵活性

  • 通过定义一系列转换操作,可以动态地对数据进行处理,简化数据加载的复杂度。

在 PyTorch 中,torchvision.transforms 模块提供了多种用于图像处理的变换操作。

2. 基础变换操作

1. ToTensor

将 PIL 图像或 NumPy 数组转换为 PyTorch 张量。同时将像素值从 0, 255 归一化为 0, 1

python 复制代码
from torchvision import transforms

transform = transforms.ToTensor()

2. Normalize

对数据进行标准化,使其符合特定的均值和标准差。通常用于图像数据,将其像素值归一化为零均值和单位方差。

python 复制代码
transform = transforms.Normalize(mean=[0.5], std=[0.5])  # 归一化到 [-1, 1]

3. Resize

调整图像的大小。

python 复制代码
transform = transforms.Resize((128, 128))  # 将图像调整为 128x128

4. CenterCrop

从图像中心裁剪指定大小的区域。

python 复制代码
transform = transforms.CenterCrop(128)  # 裁剪 128x128 的区域

3. 数据增强操作

1. RandomCrop

从图像中随机裁剪指定大小。

python 复制代码
transform = transforms.RandomCrop(128)

2. RandomHorizontalFlip

以一定概率水平翻转图像。

python 复制代码
transform = transforms.RandomHorizontalFlip(p=0.5)  # 50% 概率翻转

3. RandomRotation

随机旋转一定角度。

python 复制代码
transform = transforms.RandomRotation(degrees=30)  # 随机旋转 -30 到 +30 度

4. ColorJitter

随机改变图像的亮度、对比度、饱和度或色调。

python 复制代码
transform = transforms.ColorJitter(brightness=0.5, contrast=0.5)

4. 组合变换

通过 transforms.Compose 将多个变换组合起来。

python 复制代码
transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.RandomHorizontalFlip(p=0.5),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5], std=[0.5])
])

5. 自定义转换

如果 transforms 提供的功能无法满足需求,可以通过自定义类或函数实现。

python 复制代码
class CustomTransform:
    def __call__(self, x):
        # 这里可以自定义任何变换逻辑
        return x * 2

transform = CustomTransform()

6. 实例

1. 对图像数据集应用转换

加载 MNIST 数据集,并应用转换。

python 复制代码
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 定义转换
transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.5], std=[0.5])
])

# 加载数据集
train_dataset = datasets.MNIST(root='./data', train=True, transform=transform, download=True)

# 使用 DataLoader
train_loader = DataLoader(dataset=train_dataset, batch_size=32, shuffle=True)

# 查看转换后的数据
for images, labels in train_loader:
    print("图像张量大小:", images.size())  # [batch_size, 1, 128, 128]
    break

输出结果为:

python 复制代码
图像张量大小: torch.Size([32, 1, 128, 128])

2. 可视化转换效果

以下代码展示了原始数据和经过转换后的数据对比。

python 复制代码
import matplotlib.pyplot as plt
from torchvision import datasets
from torchvision import datasets, transforms


# 原始和增强后的图像可视化
transform_augment = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation(30),
    transforms.ToTensor()
])

# 加载数据集
dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform_augment)

# 显示图像
def show_images(dataset):
    fig, axs = plt.subplots(1, 5, figsize=(15, 5))
    for i in range(5):
        image, label = dataset[i]
        axs[i].imshow(image.squeeze(0), cmap='gray')  # 将 (1, H, W) 转为 (H, W)
        axs[i].set_title(f"Label: {label}")
        axs[i].axis('off')
    plt.show()

show_images(dataset)
相关推荐
用户2080468045619 小时前
文档解析实战:PDF、Word 与 HTML 的清洗提取指南
人工智能
得物技术19 小时前
从狂野代码到按目标生产:得物推荐 AI Harness 的工程化实践|AICon 演讲整理
人工智能·算法·架构
HokKeung19 小时前
飞书 lark-cli 如何存储 tenant_access_token 和 user_access_token
人工智能·go
Ralph_Salar19 小时前
从0到1搭建AI智能支付风控助手Stage3-Function Calling — 让AI能动起来
人工智能
Ralph_Salar19 小时前
从0到1搭建AI智能支付风控助手Stage4-Agent编排 — 让AI自己思考、决策、行动
人工智能
smallyoung19 小时前
Spring AI 2.0 VectorStore实战:从原理到RAG落地
人工智能·后端
火山引擎开发者社区20 小时前
被 Vibe Coding 用户频点名的火山 Supabase 到底是个啥?一图来看懂
人工智能
火山引擎开发者社区20 小时前
动手做 AI 实验赢好礼!产品 + 大模型免费额度限时供应!
人工智能
字节跳动视频云技术团队21 小时前
从 VCloud 到 Agentic VCloud:Agent 时代的范式重构
人工智能·音视频开发
AKAMAI21 小时前
每百万 Token 成本砍六成,出海 AI 团队开始重算推理这笔账
人工智能·云计算