【第十四周】PyTorch深度学习实践1

摘要

本周主要通过B站刘二大人的视频对 PyTorch 进行实践学习，了解了PyTorch 中各个常用的类以及方法，学习了搭建神经网络的四个步骤，为后面手动复现模型提供了实践基础。其中，最重要的是学习到了看文档的能力，对于新学习到的类和方法能够通过查询文档去理解用法和作用。

Abstract

This week, I mainly focused on practical learning with PyTorch, understanding the various commonly used classes and methods within it. I learned the four steps to building a neural network, which provided a practical foundation for manually reproducing models in the future. Most importantly, I developed the ability to read documentation, allowing me to understand the usage and function of newly learned classes and methods by consulting the documentation.

本周学习内容来自于《PyTorch深度学习实践》完结合集 1~8课

参考资料来自于PyTorch 英文文档

1.反向传播

对于简单的线性模型可以通过解析式来求对参数的导数。

一个复杂的神经网络中含有成千上百个参数，分别对这些参数求解析是一个很繁重的任务，因此我们需要一个新的办法------反向传播算法。

线性函数叠加之后总是可以化简成 W ⋅ X + b W·X+b W⋅X+b的形式，这样子多层叠加就没有意义了，所以要在每一层的结果处加上一个非线性函数。

前馈过程求解中间值和局部导数，反向传播过程求解对各个参数的偏导。

PyTorch中 Tensor（张量）包含两个成员，一个是保存参数的 Data，一个是保存导数的 Grad。同样这两个成员也是 Tensor。

torch.Tensor 和 torch.tensor的区别

代码如下：

python 复制代码

import torch

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

# 创建一个 Tensor 类型，方便求梯度
w = torch.tensor([1.0])    
w.requires_grad = True      

# 前向传播
def forward(x):
    return x * w

# 计算损失，创建计算图
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y) ** 2


print("predict before training", 4, forward(4).item())

for epoch in range(100):
    for x, y in zip(x_data, y_data):   # 选择一个样本更新梯度值
        l = loss(x, y)
        l.backward()
        print('\tgrad:', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data

        # 每次更新完梯度要清除梯度
        w.grad.data.zero_()

    print("progress:", epoch, l.item())

print("predict after training", 4, forward(4).item())

结果如下：

2.线性回归

神经网络模型的搭建遵循上图的四个流程。

2.1.准备数据集

python 复制代码

x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]

2.2.设计模型

定义 LinearModel 类

python 复制代码

class LinearModel(torch.nn.Module):

这里定义了一个名为 LinearModel 的类，它继承自 torch.nn.Module。torch.nn.Module 是所有神经网络模块的基类，包含了一些有用的属性和方法，用于管理模型参数、前向传播等。

python 复制代码

def __init__(self):
    super(LinearModel, self).__init__()
    self.linear = torch.nn.Linear(1, 1)

init 方法是 Python 中类的构造函数，当创建类的实例时会自动调用。

super(LinearModel, self).init() 调用了父类 torch.nn.Module 的构造函数，这是必要的步骤，以确保父类能够正确地初始化。

self.linear = torch.nn.Linear(1, 1) 创建了一个线性层（全连接层），输入维度为1，输出维度也为1。这意味着该模型将接受一个标量作为输入，并产生一个标量作为输出。

前向传播

python 复制代码

def forward(self, x):
    y_pred = self.linear(x)
    return y_pred

forward 方法定义了模型的前向传播逻辑，即如何从输入数据 x 计算出输出 y_pred。

self.linear(x) 使用之前定义的线性层对输入 x 进行变换。

return y_pred 返回前向传播的结果，即预测值 y_pred。

2.3.定义损失函数和优化器

定义损失和优化器

python 复制代码

criterion = torch.nn.MSELoss(size_average=False)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

model.parameters() 返回模型中所有需要优化的参数。

2.4.模型训练

python 复制代码

for epoch in range(100):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(epoch, loss.item())
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print('w = ', model.linear.weight.item())
print('b = ', model.linear.bias.item())

x_test = torch.tensor([[4.0]])
y_test = model(x_test)
print('y_pred = ', y_test.data)

结果如下：

3.逻辑回归

为什么交叉熵可以衡量两个分布的差异呢？

交叉熵 H ( P , Q ) H(P,Q) H(P,Q) 可以理解为使用概率分布 Q Q Q编码来自概率分布P的数据所需的平均比特数。具体来说：如果 P ( x ) P(x) P(x) 和 Q ( x ) Q(x) Q(x) 完全相同，即 P ( x ) = Q ( x ) P(x)=Q(x) P(x)=Q(x)，那么 H ( P , Q ) H(P,Q) H(P,Q) 等于 H ( P ) H(P) H(P)，也就是真实分布的熵。如果 P ( x ) P(x) P(x) 和 Q ( x ) Q(x) Q(x) 不同，那么 H ( P , Q ) H(P,Q) H(P,Q) 会大于 H ( P ) H(P) H(P)，因为使用不准确的概率分布Q来编码数据会导致更多的冗余信息，从而需要更多的比特数。

代码如下：

python 复制代码

import torch
import torch.nn.functional as F

# prepare dataset
x_data = torch.Tensor([[1.0], [2.0], [3.0]])
y_data = torch.Tensor([[0], [0], [1]])


# design model using class
class LogisticRegressionModel(torch.nn.Module):
    def __init__(self):
        super(LogisticRegressionModel, self).__init__()
        self.linear = torch.nn.Linear(1, 1)

    def forward(self, x):
        y_pred = F.sigmoid(self.linear(x))
        return y_pred


model = LogisticRegressionModel()

# construct loss and optimizer
# 默认情况下，loss会基于element平均，如果size_average=False的话，loss会被累加。
criterion = torch.nn.BCELoss(size_average=False)
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# training cycle forward, backward, update
for epoch in range(1000):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(epoch, loss.item())

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

print('w = ', model.linear.weight.item())
print('b = ', model.linear.bias.item())

x_test = torch.Tensor([[4.0]])
y_test = model(x_test)
print('y_pred = ', y_test.data)

结果如下：

4.处理多维特征的输入

上图为预测一个人在一年之后糖尿病病情加重概率的例子，这时每个样本会有八个不同的特征，通过八个不同的特征来预测是否病情会加重。

对于多维的特征输入我们需要把每一个特征x乘以相应的权重。在进行逻辑回归时，把每一个维度的x乘相应的权值的和加上一个偏置量。然后再把每个样本的式子写成矩阵乘法的形式。

python 复制代码

import numpy as np
import torch
import matplotlib.pyplot as plt
 
# prepare dataset
xy = np.loadtxt('diabetes.csv', delimiter=',', dtype=np.float32)
x_data = torch.from_numpy(xy[:, :-1]) # 第一个'：'是指读取所有行，第二个'：'是指从第一列开始，最后一列不要
y_data = torch.from_numpy(xy[:, [-1]]) # [-1] 最后得到的是个矩阵
 
# design model using class
 
 
class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6) # 输入数据x的特征是8维，x有8个特征
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid() # 将其看作是网络的一层，而不是简单的函数使用
 
    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x)) # y hat
        return x
 
 
model = Model()
 
# construct loss and optimizer
# criterion = torch.nn.BCELoss(size_average = True)
criterion = torch.nn.BCELoss(reduction='mean')  
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
 
epoch_list = []
loss_list = []
# training cycle forward, backward, update
for epoch in range(100):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(epoch, loss.item())
    epoch_list.append(epoch)
    loss_list.append(loss.item())
 
    optimizer.zero_grad()
    loss.backward()
 
    optimizer.step()
 
 
plt.plot(epoch_list, loss_list)
plt.ylabel('loss')
plt.xlabel('epoch')
plt.show()

torch.sigmoid、torch.nn.Sigmoid和torch.nn.functional.sigmoid的区别

结果如下：

5.加载数据集

5.1.导入必要的库

python 复制代码

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

5.2.准备数据集

python 复制代码

class DiabetesDataset(Dataset):
    def __init__(self, filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        self.len = xy.shape[0]
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])

    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]

    def __len__(self):
        return self.len

DiabetesDataset 继承自 Dataset 类，其中 Dataset 是抽象类，不可被实例化。

_init _ 方法：
读取CSV文件并将其转换为NumPy数组。
self.len 存储数据集的样本数量。
self.x_data存储特征数据，self.y_data 存储标签数据。

_getitem _ 方法：
返回指定索引处的特征和标签。

_len _ 方法：
返回数据集的长度（样本数量）。

创建数据加载器

python 复制代码

dataset = DiabetesDataset('diabetes.csv')
train_loader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, num_workers=0)

5.3.定义模型

python 复制代码

class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid()

    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x

Model 继承自 torch.nn.Module 类。

_init _ 方法：

定义了三个全连接层（Linear）和一个Sigmoid激活函数。

forward 方法：

定义了前向传播过程，输入数据依次通过三个全连接层和Sigmoid激活函数。

5.4.构建损失函数和优化器

python 复制代码

criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

5.5.训练模型

python 复制代码

if __name__ == '__main__':
    for epoch in range(100):
        for i, data in enumerate(train_loader, 0):
            inputs, labels = data
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            print(epoch, i, loss.item())

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

运行结果和上一小节类似，这一小节主要学习的是 dataloader 的具体作用和理解 epoch、batch 和 iteration 之间的关系。

总结

构建一个通用的神经网络模型是一个系统而精细的过程，大致可以分为四个关键步骤。首先，准备数据集是整个流程的基石，这一步骤不仅包括收集所需的数据，还需要对数据进行清洗、预处理以及划分训练集与测试集，确保数据的质量和适用性。接着，模型搭建阶段需要根据任务需求选择合适的网络架构，如卷积神经网络（CNN）用于图像识别，循环神经网络（RNN）适合序列数据处理等，并确定每一层的具体参数。第三步，定义损失函数和选择优化器是调整模型以达到最佳性能的关键，损失函数衡量预测值与真实值之间的差异，而优化器则通过反向传播算法最小化这种差异。最后，训练模型涉及迭代地将数据输入网络中，不断调整权重直至模型在训练集上表现良好，并通过验证集或测试集评估其泛化能力。掌握这一系列流程，就可以自己动手搭建绝大多数神经网络。

【第十四周】PyTorch深度学习实践1

目录

摘要

Abstract

1.反向传播

2.线性回归

2.1.准备数据集

2.2.设计模型

2.3.定义损失函数和优化器

2.4.模型训练

3.逻辑回归

4.处理多维特征的输入

5.加载数据集

5.1.导入必要的库

5.2.准备数据集

5.3.定义模型

5.4.构建损失函数和优化器

5.5.训练模型

总结