PyTorch 入门指南：从核心概念到基础实战

一、引言：为什么选择 PyTorch？

在人工智能浪潮席卷全球的今天，深度学习成为了驱动技术变革的核心引擎。而选择一个合适的深度学习框架，是高效进行模型研发和部署的关键。PyTorch，由 Facebook AI Research (FAIR) 推出并开源，凭借其以下优势，迅速赢得了开发者和研究人员的青睐：

Python 优先： PyTorch 深度整合了 Python 语言，语法简洁直观，与 NumPy 等科学计算库无缝衔接，学习曲线相对平缓。
动态计算图 (Define-by-Run)： 这是 PyTorch 的一大特色。计算图在代码运行时动态构建，使得调试过程（如使用 pdb 或 print）非常方便，尤其适合处理输入可变的模型（如 NLP 中的 RNN）。
强大的 GPU 加速： PyTorch 提供了对 NVIDIA GPU 的良好支持，能够利用 CUDA 大幅加速张量运算，是训练大型深度学习模型的关键。
丰富的生态系统： 拥有 torchvision（视觉）、torchaudio（音频）、torchtext（文本）等官方库，以及庞大的社区贡献了海量预训练模型、工具和教程。
灵活性与控制力： PyTorch 提供了从底层张量操作到高层网络构建的全面支持，既方便快速搭建模型，也允许研究人员进行更精细的底层定制。

本文旨在帮助你快速掌握 PyTorch 的基础知识，为你后续深入学习和应用打下坚实的基础。

二、 PyTorch 核心概念详解

要熟练使用 PyTorch，理解其核心组件至关重要：

张量 (Tensor)：

是什么？ 张量是 PyTorch 中最基本的数据结构，类似于 NumPy 的 ndarray，但增加了在 GPU 上进行计算的能力。它可以是标量（0维）、向量（1维）、矩阵（2维）或更高维度的数组。
为什么重要？ 几乎所有的深度学习模型输入、输出和参数都是以张量的形式存在的。高效的张量运算（尤其是在 GPU 上）是 PyTorch 性能的核心。

示例：

复制代码

import torch

# 创建一个未初始化的 2x3 矩阵
x = torch.empty(2, 3)
print("Empty Tensor:\n", x)

# 创建一个随机初始化的 2x3 矩阵
x = torch.rand(2, 3)
print("Random Tensor:\n", x)

# 创建一个全零且类型为 long 的 2x3 矩阵
x = torch.zeros(2, 3, dtype=torch.long)
print("Zeros Tensor:\n", x)

# 直接从数据创建张量
x = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
print("Tensor from data:\n", x)

# 基于现有张量创建新张量 (共享属性，除非提供新值)
x_ones = torch.ones_like(x) # 保持 x 的属性
print("Ones like x:\n", x_ones)
x_rand = torch.rand_like(x, dtype=torch.float) # 覆盖 dtype
print("Rand like x (float):\n", x_rand)

# 获取张量的形状 (shape/size)
print("Shape of x_rand:", x_rand.shape) # or x_rand.size()

# 张量运算 (加法)
y = torch.rand(2, 2)
z = x + y # 语法类似 NumPy
print("Addition result:\n", z)

# GPU 上的张量 (如果 CUDA 可用)
if torch.cuda.is_available():
    device = torch.device("cuda")
    x_gpu = x.to(device) # 将张量移动到 GPU
    y_gpu = y.to(device)
    z_gpu = x_gpu + y_gpu
    print("GPU Tensor addition result:\n", z_gpu)
    z_cpu = z_gpu.to("cpu") # 移回 CPU
    print("Result back on CPU:\n", z_cpu)
else:
    print("CUDA not available, running on CPU.")

自动微分 (Autograd)：
- 是什么？ torch.autograd 是 PyTorch 的自动微分引擎，它为张量上的所有操作提供支持。它会记录数据操作历史，形成一个动态计算图。
- 为什么重要？ 深度学习依赖于反向传播算法来更新模型参数，这需要计算损失函数关于参数的梯度。Autograd 自动完成了这个复杂的过程。
- 如何工作？ 当张量的 requires_grad 属性设置为 True 时，Autograd 开始追踪其上的所有操作。完成计算后，调用 .backward() 方法，Autograd 会自动计算所有 requires_grad=True 的张量相对于某个标量（通常是损失值）的梯度，并将梯度累积到张量的 .grad 属性中。
- 示例：
  复制代码
```
# 创建一个需要梯度的张量
x = torch.ones(2, 2, requires_grad=True)
print("Tensor x:\n", x)

# 进行张量操作
y = x + 2
print("Tensor y:\n", y) # y 是操作的结果，也具有 grad_fn

z = y * y * 3
out = z.mean() # 计算均值，得到一个标量
print("Tensor z:\n", z)
print("Scalar output:\n", out)

# 执行反向传播
out.backward()

# 打印梯度 d(out)/dx
print("Gradient of out w.r.t x:\n", x.grad)
# 计算过程: out = (1/4) * sum(3 * (x+2)^2)
# d(out)/dx_i = (1/4) * 3 * 2 * (x_i+2) = (3/2) * (x_i+2)
# 当 x_i=1 时, d(out)/dx_i = (3/2) * 3 = 4.5
```
- 注意： 默认情况下，用户创建的张量 requires_grad 为 False。只有设置为 True 的张量及其依赖张量才能计算梯度。模型参数（nn.Parameter）默认 requires_grad=True。在模型评估或推理时，通常使用 torch.no_grad() 上下文管理器来禁用梯度计算，以节省内存和计算。
神经网络模块 (torch.nn)：
- 是什么？ torch.nn 是 PyTorch 构建神经网络的核心模块。它提供了各种预定义的网络层（Layers）、损失函数（Loss Functions）、激活函数（Activation Functions）以及容器（Containers）等。
- 为什么重要？ 它极大地简化了神经网络模型的构建过程，使开发者可以像搭积木一样组合不同的组件。
- 核心组件：
  - nn.Module: 所有神经网络模块的基类。自定义网络层或模型时需要继承它。
  - 常用层 (Layers): nn.Linear (全连接层), nn.Conv2d (二维卷积层), nn.RNN, nn.LSTM (循环层), nn.BatchNorm2d (批归一化), nn.Dropout 等。
  - 常用激活函数 (Activations): nn.ReLU, nn.Sigmoid, nn.Tanh, nn.Softmax 等。
  - 常用损失函数 (Losses): nn.MSELoss (均方误差), nn.CrossEntropyLoss (交叉熵损失, 常用于分类), nn.L1Loss (L1 损失) 等。
  - 容器 (Containers): nn.Sequential (按顺序执行各层的容器), nn.ModuleList, nn.ModuleDict。
- 构建模型： 通常通过继承 nn.Module 并实现 init（定义层）和 forward（定义数据流）方法来构建自定义模型。
优化器 (torch.optim)：
- 是什么？ 包含各种优化算法的实现，用于在训练过程中根据计算出的梯度来更新模型的参数（权重和偏置）。
- 为什么重要？ 合理选择和配置优化器是模型成功训练的关键。
- 常用优化器： optim.SGD (随机梯度下降, 可带 momentum), optim.Adam, optim.AdamW, optim.RMSprop 等。
- 如何使用？ 创建优化器实例时，通常需要传入需要优化的模型参数 (model.parameters()) 和学习率 (lr) 等超参数。在训练循环中，调用 optimizer.zero_grad() 清零梯度，loss.backward() 计算梯度，optimizer.step() 更新参数。
数据加载 (torch.utils.data)：
- 是什么？ 提供了处理数据的工具，主要是 Dataset 和 DataLoader 类。
- 为什么重要？ 高效地加载、预处理和批量化数据对于训练大型模型至关重要。
- 核心组件：
  - Dataset: 抽象类，代表整个数据集。需要实现 len (返回数据集大小) 和 getitem (根据索引返回一条数据)。PyTorch 提供了许多内置数据集（如 torchvision.datasets）。
  - DataLoader: 包装 Dataset，提供数据的批量化 (batching)、打乱 (shuffling) 和并行加载 (multi-processing) 等功能。

三、 PyTorch 典型训练流程

一个标准的 PyTorch 模型训练过程通常包含以下步骤：

准备数据： 加载数据集，进行必要的预处理（如归一化、数据增强），使用 Dataset 和 DataLoader 进行封装。
定义模型： 继承 nn.Module，定义网络结构。
实例化模型、损失函数和优化器： 创建模型对象，选择合适的损失函数和优化器。如果使用 GPU，将模型和数据迁移到 GPU。
训练循环 (Training Loop)：
- 迭代指定的周期数 (Epochs)。
- 在每个周期内，迭代 DataLoader 获取批量数据。
- 对于每个批次 (Batch)：
  
  a. 将模型设置为训练模式 (model.train())。
  
  b. 清零优化器的梯度 (optimizer.zero_grad())。
  
  c. 执行前向传播，得到模型输出 (outputs = model(inputs))。
  
  d. 计算损失 (loss = criterion(outputs, targets))。
  
  e. 执行反向传播，计算梯度 (loss.backward())。
  
  f. 更新模型参数 (optimizer.step())。
  
  g. (可选) 记录和打印损失值或其他指标。
评估模型 (Evaluation)：
- 训练完成后或在每个周期后，在验证集或测试集上评估模型性能。
- 将模型设置为评估模式 (model.eval())，这会关闭 Dropout 和 BatchNorm 的更新。
- 使用 with torch.no_grad(): 包裹评估代码，禁用梯度计算。
- 计算准确率、精度、召回率等指标。
保存和加载模型：
- 使用 torch.save(model.state_dict(), PATH) 保存模型学到的参数。
- 使用 model.load_state_dict(torch.load(PATH)) 加载已保存的参数以进行推理或继续训练。

四、实战：线性回归

下面是一个使用 PyTorch 实现简单线性回归的完整示例：

复制代码

import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt

# 0. 检查并设置设备 (GPU or CPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 1. 准备数据 (模拟数据 y = 2*x + 1 + noise)
torch.manual_seed(42)
X_numpy = torch.randn(100, 1) * 10
y_numpy = 2 * X_numpy + 1 + torch.randn(100, 1) * 3
X = X_numpy.to(device) # 将数据移动到指定设备
y = y_numpy.to(device)

# 2. 定义模型
class LinearRegression(nn.Module):
    def __init__(self):
        super().__init__()
        # 定义一个线性层 (输入特征1个, 输出特征1个)
        self.linear = nn.Linear(1, 1)

    def forward(self, x):
        # 前向传播逻辑
        return self.linear(x)

# 3. 实例化模型、损失函数和优化器
model = LinearRegression().to(device) # 创建模型实例并移动到设备
criterion = nn.MSELoss() # 均方误差损失
optimizer = optim.SGD(model.parameters(), lr=0.001) # 随机梯度下降优化器

# 4. 训练循环
num_epochs = 100
for epoch in range(num_epochs):
    model.train() # 设置为训练模式

    # 前向传播
    outputs = model(X)
    loss = criterion(outputs, y)

    # 反向传播和优化
    optimizer.zero_grad() # 清空梯度
    loss.backward()      # 计算梯度
    optimizer.step()     # 更新权重

    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

# 5. 评估 (可视化)
model.eval() # 设置为评估模式
with torch.no_grad(): # 禁用梯度计算
    predicted = model(X)

# 将数据移回 CPU 进行绘图
predicted_numpy = predicted.cpu().numpy()
X_plot = X.cpu().numpy()
y_plot = y.cpu().numpy()

# 打印学到的参数
print("\nLearned parameters:")
for name, param in model.named_parameters():
    if param.requires_grad:
        print(f"{name}: {param.data.cpu().numpy()}")

# 绘制结果
plt.figure(figsize=(8, 6))
plt.scatter(X_plot, y_plot, label='Original data')
plt.plot(X_plot, predicted_numpy, color='red', label='Fitted line')
plt.xlabel("X")
plt.ylabel("y")
plt.title("Linear Regression with PyTorch")
plt.legend()
plt.grid(True)
plt.show()

# 6. 保存模型 (只保存参数)
# torch.save(model.state_dict(), 'linear_regression_model.pth')
# 加载模型:
# loaded_model = LinearRegression().to(device)
# loaded_model.load_state_dict(torch.load('linear_regression_model.pth'))
# loaded_model.eval()

五、学习资源与进阶

官方文档与教程： PyTorch 官网 (https://pytorch.org/) 是最好的起点，包含详细的 API 文档和各种任务的官方教程。
官方论坛： PyTorch 论坛 (https://discuss.pytorch.org/) 是寻求帮助和交流讨论的好地方。
书籍： 《动手学深度学习》(PyTorch 版) 是一本优秀的开源书籍。
在线课程： Coursera, Udacity, fast.ai 等平台提供了许多基于 PyTorch 的深度学习课程。
实践项目： 尝试复现经典论文的模型，或者参加 Kaggle 等数据科学竞赛。

六、总结

PyTorch 以其 Pythonic 的设计哲学、强大的功能和活跃的社区，成为了深度学习领域的重要基石。理解其核心概念------张量、自动微分、神经网络模块、优化器和数据加载器------是掌握 PyTorch 的关键。通过本文的介绍和线性回归实例，你应该对如何使用 PyTorch 构建和训练模型有了初步的认识。

PyTorch 入门指南：从核心概念到基础实战

一、 引言：为什么选择 PyTorch？

二、 PyTorch 核心概念详解

三、 PyTorch 典型训练流程

四、 实战：线性回归

五、 学习资源与进阶

六、 总结

一、引言：为什么选择 PyTorch？

四、实战：线性回归

五、学习资源与进阶

六、总结