PyTorch实现卷积神经网络CNN

一、卷积神经网络CNN

二、代码实现(PyTorch)

1. 导入依赖库

python 复制代码
import torch
from torch import nn, optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
  • nn:包含了torch已经准备好的层,激活函数、全连接层等

  • optim:提供了神经网络的一系列优化算法,如 SGD、Adam 等

  • datasets:提供常用的数据集,如 MNIST(本次使用)、CIFAR10/100、ImageNet、COCO 等

  • DataLoder:装载上面提到的数据集

2. 准备数据集

这里使用MNIST数据集,它是一个大型手写数字数据库(包含0~9十个数字),原始的这两个数据集由128×128像素的黑白图像组成。LeCun等人将其进行归一化和尺寸调整后得到的是28×28的灰度图像。

MNIST数据集总共包含两个子数据集:一个训练数据集(train_dataset)和一个测试数据集(test_dataset)。它们分别包含了60K和10K的28×28的灰度图像。代码如下:

python 复制代码
# 训练集
train_dataset = datasets.MNIST(root='./',
                               train=True,
                               transform=transforms.ToTensor(),  # 数据转换为张量格式
                               download=True)
# 测试集
test_dataset = datasets.MNIST(root='./',
                              train=False,
                              transform=transforms.ToTensor(),
                              download=True)

batch_size = 100  # 批次大小
# 装载训练集
train_loader = DataLoader(dataset=train_dataset,
                          batch_size=batch_size,  # 每次加载多少条数据
                          shuffle=True)  # 生成数据前打乱数据 
# 装载测试集
test_loader = DataLoader(dataset=test_dataset,
                         batch_size=batch_size,
                         shuffle=True)

这里值得注意的是,datasets.s=MNIST() 的参数 download 表示是否下载到参数 root 下的目录。但是实际使用过程中,从 https://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz 下载会出现 403 forbidden 的报错信息。这个不必担心,torch 还会选择其他可用下载链接继续下载。 下载好的数据集应该有如下几个:

或者

3. 构建网络模型

首先应该清楚,MNIST给到的原始训练集的图像可以表示为(batch_size, 1, 28, 28),其中 batch_size 代表一共加载了多少条数据,这里我之前设置了100;1代表这个训练集的图片是灰度图;两个28则为灰度图的长和宽。

接下来就可以设计卷积层和池化层。

设计卷积层时,应该注意第一层的卷积核数量(特征图数量)一般从较小的数值开始,我这里设置了32。因为灰度图的特征还算明显,因此卷积核可以适当减小,缓慢增加感受野,以此提高效率,因此设置为5×5。步长一般设置为1。至于填充几圈0,则可通过图像大小、卷积核大小、步长等推算得知。

设计池化层时,首先确定池化法,这里选择最大池化法。选择最常用的2×2大小的池化核,它能够将特征图的宽和高减小一半。

以下是每一层的详细设计思路:

  1. 卷积层1(conv1):先创建一个二维卷积层(Conv2d),然后确定激活函数(ReLU)对卷积层输出的每个值进行非线性变换,最后利用最大池化法(MaxPool)减小特征图尺寸防止过拟合。
  2. 卷积层2(conv2):由卷积层1的输出通道数确定卷积层2的输入通道数,其他不变。
  3. 全连接层1(fc1):使用 Dropout 来控制全连接层的过拟合问题,每次有50%的神经元不使用(只有训练状态下 Dropout 才起作用,测试状态下还是全部神经元工作)。在前向传播时需要注意,应该把卷积层的特征图维数修改为2维。
  4. 全连接层2(fc2):最后将1000个特征图输出为10个数字(0~9)的概率值。这里Softmax不加也行,因为后续在使用交叉熵代价函数(CrossEntropyLoss)时,因为它内部已经包括 Softmax 操作。
python 复制代码
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(1, 32, 5, 1, 2),  # Conv2d(输入通道数(灰度图),输出通道数(生成多少特征图),卷积核大小(5×5),步长,0填充(填充2圈))
            nn.ReLU(),
            nn.MaxPool2d(2, 2)  # MaxPool2d(池化核大小2×2,步长为2)
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(32, 64, 5, 1, 2),
            nn.ReLU(),
            nn.MaxPool2d(2, 2)  
        )
        self.fc1 = nn.Sequential(
            nn.Linear(64 * 7 * 7, 1000),  # 将特征压缩为1000维的特征向量
            nn.Dropout(p=0.5),
            nn.ReLU()
        )
        self.fc2 = nn.Sequential(
            nn.Linear(1000, 10),
            nn.Softmax(dim=1)
        )

    def forward(self, x):
        x = self.conv1(x)  # 特征图(batch_size, 1, 28, 28) -> (batch_size, 32, 14, 14)
        x = self.conv2(x)  # 特征图(batch_size, 32, 14, 14) -> (batch_size, 64, 7, 7)
        x = x.view(x.size()[0], -1)  # ([batch_size, 64, 7, 7]) -> (batch_size, 64*7*7)
        x = self.fc1(x)  # (batch_size, 64*7*7) -> (batch_size, 1000)
        x = self.fc2(x)  # (batch_size, 1000) -> (1000, 10)
        return x

4. 训练+测试

使用交叉熵代价函数(CrossEntropyLoss)和自适应矩阵优化算法(Adam)训练数据。代码如下:

python 复制代码
LR = 0.001  # 学习率
model = Net()  # 模型
crossEntropy_loss = nn.CrossEntropyLoss()  # 交叉熵代价函数
optimizer = optim.Adam(model.parameters(), LR)


def train():
    model.train()
    for i, data in enumerate(train_loader):
        inputs, labels = data  # 获得一个批次的数据和标签
        out = model(inputs)  # 获得模型预测输出(64张图像,10个数字的概率)
        loss = crossEntropy_loss(out, labels)  # 使用交叉熵损失函数时,可以直接使用整型标签,无须独热编码
        optimizer.zero_grad()  # 梯度清0
        loss.backward()  # 计算梯度
        optimizer.step()  # 修改权值


def test():
    model.eval()
    correct = 0
    for i, data in enumerate(test_loader):
        inputs, labels = data  # 获得一个批次的数据和标签
        out = model(inputs)  # 获得模型预测结构(64,10)
        _, predicted = torch.max(out, 1)  # 获得最大值,以及最大值所在位置
        correct += (predicted == labels).sum()  # 判断64个值有多少是正确的
    print("测试集正确率:{}\n".format(correct.item() / len(test_loader)))


# 训练20个周期
for epoch in range(20):
    print("Epoch:{}".format(epoch))
    train()
    test()

运行,等待片刻后,输出测试集的正确率为:

相关推荐
一水鉴天1 分钟前
智能工厂的软件设计 作为“程序Program”的中台
运维·人工智能·机器学习·中间件
AI完全体8 分钟前
【AI知识点】二项分布(Binomial Distribution)
人工智能·机器学习·数学建模·概率论·统计学·伯努利试验·离散概率分布
Jackilina_Stone12 分钟前
【AI】AIOT简介
人工智能
Landy_Jay23 分钟前
深度学习:CycleGAN图像风格迁移转换
人工智能·深度学习
卧蚕土豆37 分钟前
【有啥问啥】卡尔曼滤波(Kalman Filter):从噪声中提取信号的利器
人工智能·算法·机器学习
我爱学Python!44 分钟前
基于 LangChain 的自动化测试用例的生成与执行
人工智能·自然语言处理·langchain·自动化·llm·测试用例·大语言模型
deephub44 分钟前
闭源与开源嵌入模型比较以及提升语义搜索效果的技术探讨
人工智能·python·语言模型·rag·嵌入模型
jndingxin1 小时前
OpenCV视频I/O(8)视频采集类VideoCapture之从视频源中读取一帧图像函数read()的使用
人工智能·opencv·音视频
翁乐安1 小时前
opencv-如何获取图像区域特定像素区域大小
人工智能·python·opencv
菜就多练_08281 小时前
《深度学习》OpenCV 背景建模 原理及案例解析
人工智能·深度学习·opencv