pytorch核心组件以及流程

PyTorch基础解析：从核心架构到工作流精通

I. 引言：PyTorch的设计哲学与核心组件

PyTorch 是一个基于Python的科学计算包，其设计哲学根植于"Python优先" (Python-first) 的理念 1。这一选择造就了其标志性的"命令式体验" (imperative experiences)，允许代码逐行执行，如同标准的Python脚本 1。这种设计为研究人员和开发者提供了"最大限度的灵活性" 1，极大地简化了调试过程 2。

PyTorch 提供了两个高级特性，构成了整个库的基石 1：

具备强大GPU加速功能的张量（Tensor）计算（类似于NumPy）。
建立在"基于磁带的autograd系统" (tape-based autograd system) 之上的深度神经网络。

要精通PyTorch，首先必须理解其架构的顶层设计。以下核心组件构成了PyTorch生态系统的骨架，并为本报告后续的深入分析提供了框架。

表1：PyTorch核心组件概览

组件 (Component)	描述 (Description)
torch	一个类似NumPy的张量库，提供强大的GPU支持 1。
torch.autograd	一个基于磁带的自动微分库，支持torch中所有可微分的张量操作 1。
torch.nn	一个与autograd深度集成的神经网络库，为实现最大灵活性而设计 1。
torch.utils	包含DataLoader和其他实用功能，为数据加载提供便利 1。
torch.optim	实现了各种优化算法（如SGD, Adam）的包 4。
torch.multiprocessing	具备torch张量跨进程神奇内存共享功能的Python多进程库，对数据加载很有用 1。
torch.jit	一个编译堆栈 (TorchScript)，用于从PyTorch代码创建可序列化和可优化的模型 1。

资料来源：1

PyTorch的核心设计中存在一个根本性的张力：即"灵活性"与"性能"之间的权衡。PyTorch的命令式特性（也称为"Eager Mode"或"Define-by-Run"）允许图在运行时动态构建 2，这使其在研究中（需要处理复杂的、动态变化的模型）具有无与伦比的优势 3。

然而，这种灵活性是有代价的。对Python解释器的依赖带来了"速度和性能上的成本" 2，这对于需要低延迟和高吞吐量的"生产就绪" (Production Ready) 环境而言并不理想 6。

这种研究灵活性与生产性能之间的张力，是推动PyTorch库演进的主要驱动力。诸如torch.jit (TorchScript) 1 和PyTorch 2.x中引入的torch.compile 2 等组件的出现，其根本目的就是为了弥合这一差距。它们提供了工具，帮助开发者从灵活的Eager Mode"无缝过渡" 6 到一个静态的、"可序列化和可优化的" 1 计算图，从而在生产环境中实现高性能推理。

II. 基础 (学习重点 1): torch.Tensor

torch.Tensor 是PyTorch中的"基本构建模块" 9。从概念上讲，它是一个N维数组（N-dimensional array）9，与NumPy的ndarray非常相似 1。然而，它具有两个使其在深度学习中至关重要的附加特性：

与torch.autograd的深度集成，以实现自动微分 11。
对GPU等硬件加速器的原生支持 1。

在PyTorch中，张量被用来编码所有数据，包括模型的输入、输出，以及模型自身的参数（即权重和偏置）11。

实践精通：张量的创建与属性

张量的初始化方式多种多样 11：

从现有数据创建: torch.tensor(data) 11。
从NumPy数组创建: torch.from_numpy(np_array) 11。值得注意的是，这种方式创建的张量可能与原NumPy数组共享内存，这在提升效率的同时也带来了潜在风险：如果NumPy数组在原地被修改，张量的值也会随之改变 11。
从其他张量创建: torch.rand_like(x_data)，保留原张量的属性 11。
创建特定形状的张量: torch.rand(shape) 或 torch.ones(shape) 11。

精通张量的第一步是理解其三个核心属性 11：

tensor.shape: 张量的维度（一个元组）。
tensor.dtype: 张量的数据类型（例如 torch.float32）。
tensor.device: 张量存储的设备（例如 cpu 或 cuda）。

实践精通：操作与操纵

PyTorch提供了丰富的张量操作API 14，包括数学运算和索引。

数学运算 11:
- 逐元素操作: z = tensor * tensor
- 矩阵乘法: y = tensor @ tensor.T
索引与切片 11:
- PyTorch支持标准的、类似NumPy的索引和切片语法 12。
- 例如：tensor[:, 0] 获取第一列，tensor[..., -1] 获取最后一列 11。

实践精通：硬件加速 (GPU)

默认情况下，张量在CPU上创建 11。为了利用GPU进行计算加速，必须显式地将张量移动到GPU设备上 11。

规范方法: .to(device)。例如：device = torch.device("cuda")，然后 tensor = tensor.to(device) 16。
快捷方法: .cuda()。例如：tensor = tensor.cuda() 16。

一个常见的误解是将.device视为一个被动的属性标签。实际上，调用.to("cuda")或.cuda()是一个主动的计算操作 。研究发现，当调用.cuda()时，GPU利用率并非为零 19。这是因为"内存分配或数据复制...是使用GPU内核来实现的" 19。这意味着在CPU和GPU内存之间复制数据是昂贵的I/O操作。因此，一个关键的学习重点是最小化这些传输，通常的做法是在训练开始时将模型和数据一次性转移到GPU，并避免在训练循环内部进行不必要的数据回传。

此外，必须理解torch.Tensor与nn.Parameter之间的关系。nn.Parameter被描述为"张量的封装器 (wrapper)" 20。其特殊之处在于，它会"告诉一个Module（模块），它拥有在反向传播期间需要更新的权重" 20。当构建一个优化器（见第六章）时，会调用model.parameters() 21，该方法会自动查找所有被定义为nn.Parameter类型的属性。因此，nn.Parameter本质上是一个张量，但它额外具有一个关键功能：自动向其父nn.Module注册，以便被优化器"看到"并更新。

III. 引擎 (学习重点 2): torch.autograd 与动态计算图

torch.autograd 是PyTorch的"自动微分引擎" 9。正是这个组件通过计算损失函数相对于模型参数的梯度，"驱动了神经网络的训练" 22。

核心概念：动态计算图 (DAG)

autograd的核心机制是构建和维护一个数据结构，称为有向无环图（Directed Acyclic Graph, DAG）3。

图的组件 22:
- 节点 (Nodes): 张量（即数据）。
- 边 (Edges): Function对象（即操作）。
- 叶节点 (Leaves): 用户创建的输入张量（例如模型参数）。
- 根节点 (Roots): 最终的输出张量（例如 loss 张量）。

autograd最关键的特性是其动态性，即"运行时定义" (Define-by-Run)。与静态图（如TensorFlow 1.x）不同，PyTorch在代码"运行时" 2 或"即时" 5 构建计算图。这意味着图在每次forward()前向传播时都会"从头开始重建" 22。

这种动态性带来了巨大的好处：

灵活性: 允许在模型中使用标准的Python控制流（如 if 语句和 for 循环）3。
易调试: 由于代码是逐行执行的，调试变得简单直观 2。

实践精通：autograd 的激活与使用

autograd的工作流程可以通过以下步骤来掌握：

激活: requires_grad=True

这是告知autograd开始"跟踪"对该张量执行的所有操作的"开关" 22。如果一个操作的任何一个输入张量的requires_grad=True，那么其输出张量也将自动获得requires_grad=True 22。对于nn.Parameter（见第二章），此属性默认为True 20。

跟踪: .grad_fn

当一个操作在被跟踪的张量上执行时，其输出张量会通过.grad_fn属性保存其"血统" 27。该属性是一个指向创建它的Function对象的指针，从而在反向构建DAG时起到了链接作用 22。叶节点张量的grad_fn为None 27。

计算: .backward()

这是触发梯度计算的动作 2。当在一个标量根节点（如loss）上调用.backward()时 22：

autograd从loss开始，反向遍历DAG至叶节点 22。
在每个grad_fn节点处应用链式法则（chain rule）22。
将计算得到的梯度累加 (accumulate) 到叶节点张量（即模型参数）的.grad属性中 22。

禁用: with torch.no_grad():

这是一个上下文管理器，用于临时关闭所有梯度跟踪 2。这是在模型评估（验证/测试）期间的一个关键学习点 30。通过阻止autograd构建计算图，它能显著节省内存和计算时间 2。

一个极其重要的机制是：.backward()调用累加梯度，而不是覆盖它们。autograd文档明确指出："此函数在叶节点中累积梯度" 29。多次调用.backward()会导致梯度被累加 27。这解释了为什么在每个训练迭代开始时，optimizer.zero_grad() 21 是一个强制性步骤。如果省略此步骤，当前批次的梯度将与所有先前批次的梯度相加，导致参数更新方向完全错误。

另一个高级概念是autograd的真正本质。当开发者试图在一个非标量（向量）张量上调用.backward()时，程序会出错。这是因为autograd本质上是一个计算向量-雅可比积 (vector-Jacobian product) J T c d o t v J^T \\cdot v JTcdotv 的引擎 22。

当loss是一个标量时，PyTorch可以隐式地假设向量 v v v为1.0。
当输出y是一个向量时，autograd不知道用哪个向量 v v v来计算乘积。此时，用户必须通过gradient参数显式提供该向量：y.backward(gradient=some_vector) 22。
因此，loss.backward()只是autograd引擎（计算向量-雅可比积）的一个最常见的特例。

IV. 抽象 (学习重点 3): 使用 torch.nn 构建神经网络

torch.nn是"一个与autograd深度集成的神经网络库" 1。它提供了构建模型所需的所有"构建模块" 32。

核心概念 (学习重点): nn.Module

nn.Module是所有神经网络模块的基类 20。整个自定义模型（例如MyModel）本身就是一个nn.Module，它在嵌套结构中包含了其他的nn.Module（即层）32。

实践精通 (学习重点): 定义一个模型

任何自定义模型都必须继承nn.Module 32，并实现两个关键方法：

1. init(self)

角色 : 定义和初始化模型的层和参数 32。
示例: self.conv1 = nn.Conv2d(...), self.fc1 = nn.Linear(...) 32。

2. forward(self, x)

角色 : 定义数据流 20。此方法接收输入张量x，并按顺序将其传递通过在__init__中定义的各个层。
关键点 : 永远不要直接调用model.forward(x)。相反，应该直接调用模型实例：output = model(x) 32。这个调用不仅会执行forward方法，还会执行一系列必要的"后台操作"（如hooks）。

核心构建模块 (学习重点): "工具箱"

torch.nn提供了一个庞大的工具箱。精通此模块意味着熟悉其关键组件：

表2：torch.nn 中的关键层与模块

模块 (Module)	关键参数	描述
nn.Linear	in_features, out_features	应用一个线性变换（全连接层）32。
nn.Conv2d	in_channels, out_channels, kernel_size, stride, padding	应用一个2D卷积 36。
nn.ReLU	inplace	应用ReLU非线性激活函数 2。
nn.MaxPool2d	kernel_size, stride	应用2D最大池化。
nn.Dropout	p	在训练期间按概率p随机将输入单元归零。
nn.BatchNorm2d	num_features	应用2D批量归一化。
nn.Sequential	(layers...)	一个有序的模块容器，数据按定义顺序通过 2。

资料来源：2

常见的陷阱与深入理解

nn.CrossEntropyLoss的输入 (Logits vs. 概率)

在分类任务中，一个极其常见的错误是误解nn.CrossEntropyLoss 37 的输入要求。

新手往往会认为模型应该输出概率，因此在模型的forward方法末尾添加一个nn.Softmax层 32。
然后，他们将这些概率输入到nn.CrossEntropyLoss中。
这是错误的，会导致训练失败或效果不佳。
原因是：nn.CrossEntropyLoss期望的输入是未经归一化的原始logits 38。它会"在内部应用softmax" 39。
如文档所述，该损失函数在内部将nn.LogSoftmax和nn.NLLLoss组合在一起，以实现更优的数值稳定性 28。
因此，关键的学习点是：模型的forward方法应该直接返回最后一个nn.Linear层的原始logits。

从Conv2d到Linear的过渡 (Flattening)

在构建卷积神经网络（CNN）时，一个必经的步骤是将卷积块的输出连接到全连接块的输入 40。

nn.Linear层期望一个二维输入 ( b a t c h _ s i z e , i n _ f e a t u r e s ) (batch\\\_size, in\\\_features) (batch_size,in_features) 35。
nn.Conv2d层的输出通常是一个四维张量 ( b a t c h _ s i z e , o u t _ c h a n n e l s , h e i g h t , w i d t h ) (batch\\\_size, out\\\_channels, height, width) (batch_size,out_channels,height,width) 36。
为了连接它们，必须将卷积输出"展平" (flatten)。
第一个nn.Linear层所需的in_features 40 并不是一个"魔法数字"（如4096），而是 o u t _ c h a n n e l s t i m e s h e i g h t t i m e s w i d t h out\\\_channels \\times height \\times width out_channelstimesheighttimeswidth 的计算结果。
这种过渡在架构上标志着从"特征提取器" (feature extractor)（卷积层）41 到"分类器" (classifier)（全连接层）42 的转变。
在现代PyTorch代码中，这个操作通常由nn.Flatten()层自动完成 32。

V. 燃料 (学习重点 4): 使用 Dataset 和 DataLoader 进行数据加载

PyTorch提供了两个"数据原语" (data primitives) 来标准化和加速数据加载流程：torch.utils.data.Dataset 和 torch.utils.data.DataLoader 43。

核心概念 1 (学习重点): Dataset - 数据是什么？

Dataset类的角色是存储样本及其对应的标签 43。它抽象了数据访问的逻辑。

预加载数据集: torchvision.datasets (如FashionMNIST) 提供了许多开箱即用的数据集，便于原型设计 43。
自定义数据集 : 这是实际应用中的关键学习点。要创建自定义数据集 44，必须继承torch.utils.data.Dataset 47 并实现两个"魔术方法" 44：
1. len(self): 必须返回数据集中的样本总数。
2. getitem(self, idx): 必须根据索引idx加载并返回单个数据样本（例如，（图像张量, 标签张量）元组）。

核心概念 2 (学习重点): DataLoader - 如何获取数据？

DataLoader是一个迭代器，它"包裹"在Dataset之外 43。它的职责是自动化和优化向训练循环提供数据的过程。

DataLoader通过几个关键参数来管理这个过程 44：

dataset: 要从中抽取数据的Dataset实例 49。
batch_size=32: 每个批次中包含的样本数量。
shuffle=True: 在每个epoch开始时重新打乱数据顺序 50。
num_workers=4: 用于并行加载数据的子进程数量。

Dataset和DataLoader的设计体现了职责分离 (Separation of Concerns) 的原则。

Dataset 44 的职责是：给定一个索引，如何获取一个数据项 (getitem)。这可能涉及复杂的I/O操作，如从磁盘读取文件、解码图像或应用数据增强 46。
DataLoader 44 的职责是：如何组织数据的获取。这涉及批量处理、采样策略（如打乱）和并行化。
这种分离具有极高的价值：开发者可以编写一次CustomDataset，然后在多个DataLoader中重用它------例如，一个用于训练（shuffle=True, batch_size=64），另一个用于验证（shuffle=False, batch_size=256），而无需修改Dataset的任何代码。

深入理解shuffle=True的工作原理至关重要。DataLoader并不会在内存中物理地移动庞大的数据集。相反，它通过"重新排序索引而非数据本身"来实现打乱 50，这种方式效率极高。它会创建一个索引列表 [0, 1,..., len(dataset)-1]，打乱这个列表，然后使用打乱后的索引去调用dataset.getitem 51。

同样，num_workers > 0会启用多进程 (multiprocessing) 44，这直接关联到torch.multiprocessing核心组件 1。DataLoader会启动多个"工作进程" 47，这些进程并行地调用dataset.getitem（这通常是I/O密集型操作，如读取磁盘文件 52），从而极大地加快了数据准备速度，防止数据加载成为GPU训练的瓶颈。

VI. 流程 (中心学习重点): 完整的训练与验证循环

"优化循环" (optimization loop) 28 或"训练循环" (training loop) 53 是PyTorch的核心实践。PyTorch 不提供 一个像.fit()这样的高级函数；它提供了灵活性，让开发者自己编写这个循环 54。这是所有先前组件汇聚的中心学习点 55。

循环结构：Epochs

一次对整个数据集的完整迭代称为一个"epoch" 28。每个epoch通常包含两个阶段 28：

训练循环 (Train Loop): 迭代训练数据集，以优化模型参数。
验证/测试循环 (Validation/Test Loop): 迭代测试数据集，以检查模型的泛化性能。

关键组件: torch.optim

torch.optim包实现了各种优化算法（如SGD, Adam）4。它的工作是"调整模型参数以减少模型误差" 28。

初始化 (学习重点): 必须首先构造一个优化器对象 56。
示例: optimizer = torch.optim.SGD(model.parameters(), lr=0.01) 4。
连接机制 : model.parameters() 20 调用会返回一个包含模型中所有nn.Parameter（在第二章中定义）的迭代器。这就是优化器知道需要更新哪些张量的方式。

实践精通 (学习重点): 标准的训练序列

在遍历train_dataloader的训练循环内部，以下五个步骤是PyTorch训练的"黄金标准"，必须严格遵守 4：

1. optimizer.zero_grad()

功能: 将所有模型参数的.grad属性重置为零 21。
原因 : 如第三章所述，loss.backward()会累加梯度 29。没有这一步，当前批次的梯度会与之前所有批次的梯度相加，导致更新无效 27。

2. outputs = model(inputs)

功能: 执行前向传播。将数据批次inputs传入模型实例，调用其forward方法 21。
机制: autograd在后台构建动态计算图 22。

3. loss = loss_fn(outputs, labels)

功能: 计算损失。通过比较模型的预测outputs和真实标签labels来计算标量损失值 21。

4. loss.backward()

功能: 执行反向传播。autograd反向遍历计算图，计算loss相对于每个参数的梯度，并将其存储在参数的.grad属性中 2。

5. optimizer.step()

功能: 更新参数。优化器遍历它所持有的所有参数，并使用存储在param.grad中的梯度来更新每个参数的值（例如，param.data -= lr * param.grad）21。

实践精通 (学习重点): 验证循环 (关键区别)

验证循环与训练循环相似，但有两个至关重要的区别，以确保结果的正确性并避免不必要的操作 30：

1. model.eval()

功能 : 在验证循环开始之前必须调用 58。
原因 : 这与torch.no_grad()不同。model.eval()用于改变特定层的行为：它会关闭Dropout 层，并将Batch Normalization层切换到评估模式（使用学习到的运行均值和方差，而不是当前批次的统计数据）59。忘记调用它会导致验证结果不一致且通常更差。

2. with torch.no_grad():

功能: 整个验证循环（包括前向传播和损失计算）必须包含在此上下文管理器中 2。
原因 : 它告诉autograd不要构建计算图 22。这极大地节省了内存并加快了计算速度 2。

3. 移除的步骤

在验证循环中，绝不调用optimizer.zero_grad(), loss.backward()或optimizer.step() 30。

表3：训练Epoch的解剖学------训练与验证的对比

阶段	关键调用	目的
设置	model.train() (训练) / model.eval() (验证)	切换Dropout和BatchNorm层的行为 59。
梯度控制	(默认) (训练) / with torch.no_grad(): (验证)	启用/禁用Autograd图的构建 27。
循环步骤	optimizer.zero_grad()	清除旧梯度（仅训练）21。
	outputs = model(inputs)	执行前向传播 21。
	loss = loss_fn(outputs, labels)	计算损失 21。
	loss.backward()	计算梯度（仅训练）21。
	optimizer.step()	更新参数（仅训练）21。

资料来源：21

VII. 模型的生命周期：从保存到部署

掌握了训练循环后，学习的最后阶段是管理训练完成后的模型生命周期：保存、重用和部署。

实践精通 (学习重点): 模型的保存与加载

最佳实践：仅保存 state_dict

state_dict（状态字典）是一个Python字典，它将模型的每一层映射到其参数张量（即学习到的权重和偏置）58。
PyTorch的推荐做法是只保存state_dict 43，而不是保存整个模型对象 60。这种方法更轻量、更稳定，不易在代码重构时损坏。

保存与加载流程 (学习重点) 58:

保存: torch.save(model.state_dict(), 'model_weights.pth') 43。
加载: 这是一个两步过程：
a. 首先，创建模型类的实例：model = MyModelClass() 58。
b. 然后，加载权重：model.load_state_dict(torch.load('model_weights.pth')) 58。
关键点 : 加载权重后，进行推理前必须调用model.eval()，以确保模型处于评估模式 58。

保存检查点 (Checkpoints)

若要支持恢复训练，应保存一个包含更多信息的字典，例如：model_state_dict, optimizer_state_dict, epoch 和 loss 61。

实践精通 (学习重点): 迁移学习 (Transfer Learning)

迁移学习是指将在大型数据集（如ImageNet）上预训练的模型，重新用于新的、相关的任务 63。

步骤1：加载预训练模型

使用torchvision.models库：model = models.resnet18(weights='IMAGENET1K_V1') 41。
步骤2：选择策略 (学习重点) 41

策略A: 微调 (Finetuning)
1. 替换分类器: 替换模型的最后一层，以匹配新任务的类别数量。例如：num_ftrs = model.fc.in_features, model.fc = nn.Linear(num_ftrs, NUM_CLASSES) 41。
2. 训练: 训练整个网络。所有参数的requires_grad保持为True 41。
策略B: 特征提取 (Feature Extraction)
1. 冻结基础层: 迭代遍历所有基础层参数，并关闭它们的梯度计算：for param in model.parameters(): param.requires_grad = False 41。
2. 替换分类器: (同上)。新添加的nn.Linear层默认requires_grad=True 41。
3. 训练 : 现在，当调用loss.backward()时，只有新分类器层的参数会计算梯度并被优化器更新。

迁移学习并非一个独立的黑盒功能；它直接应用了对autograd系统的深入理解 。策略A和B之间的区别不在于模型架构，而在于梯度流。通过手动设置param.requires_grad = False 42，开发者是在指示autograd引擎（见第三章）22，在反向传播时"修剪"掉这些参数。因此，autograd的requires_grad标志 22 是实现"冻结"层的核心机制。

实践精通 (学习重点): 生产部署

训练模型的最后一步是将其部署到生产环境。

问题: 使PyTorch在研究中表现出色的动态图和Python依赖性 3，在生产环境中"并不理想" 7，因为它带来了性能开销 2 和对Python解释器的依赖 7。

解决方案: 将动态图序列化为静态的、高性能的、可独立部署的格式 7。

表4：PyTorch模型部署策略对比

方法	关键API调用	优点	典型用例
Eager Mode (.pth)	model.load_state_dict()	简单，灵活，易于调试。	在Python环境中进行研究、评估或恢复训练 58。
TorchScript (.pt)	torch.jit.script()	PyTorch原生，高性能，可脱离Python在C++中运行 7。	性能关键的C++服务器端推理 1。
ONNX (.onnx)	torch.onnx.export(..., dynamo=True)	开放标准，与平台无关 67，可使用ONNX Runtime (ORT) 进行高性能推理 68。	部署到非Python环境（如Web、移动端、Edge设备）或需要硬件特定优化的场景 67。
TorchServe	(配置.mar 文件)	专门的模型服务工具，支持API端点、版本控制和批处理 6。	作为HTTP/gRPC服务，在生产中托管任何格式的PyTorch模型 7。

资料来源：1

对于ONNX，值得注意的是，自PyTorch 2.5起，推荐的导出方法已变为torch.onnx.export(..., dynamo=True) 68。这种新方法利用torch.export和Torch FX进行图捕获，比依赖于旧版TorchScript的传统导出器更为健壮和现代 68。

VIII. 结论

本报告对PyTorch的核心部件及其关键学习重点进行了系统性解构。分析表明，PyTorch的架构设计是一条清晰的路径：从具体的torch.Tensor（数据基础）到抽象的torch.nn.Module（模型构建），所有这一切都由一个强大且灵活的torch.autograd（动态引擎）驱动，并通过torch.utils.data（数据管道）获取燃料。

精通PyTorch的路径并非是孤立地学习每个组件，而是要深刻理解它们如何协同工作。中心学习重点（第六章）是亲手构建完整的训练和验证循环。这个过程迫使开发者将所有其他核心组件（张量操作、模型定义、自动微分、数据加载和参数优化）有机地结合在一起。

对autograd机制（第三章）的深入理解------特别是梯度累加的特性和requires_grad标志------是解锁高级技术（如迁移学习中的特征提取）的关键。

最后，PyTorch的设计哲学中固有的"灵活性与性能"的张力定义了模型的完整生命周期。开发者必须掌握何时利用Eager Mode的灵活性（用于训练和研究），以及何时将其转换为静态、高性能的格式（如ONNX或TorchScript），以满足生产部署的需求。

引用的著作

pytorch/pytorch: Tensors and Dynamic neural networks in Python with strong GPU acceleration - GitHub, 访问时间为十一月 12, 2025， https://github.com/pytorch/pytorch
PyTorch Tensors Explained. From Memory Usage to AutoGrad in... | by Matthew Gunton | Data Science Collective | Medium, 访问时间为十一月 12, 2025， https://medium.com/data-science-collective/pytorch-tensors-explained-433ea1a91c0f
PyTorch's Dynamic Graphs (Autograd) | by Zach Wolpe - Medium, 访问时间为十一月 12, 2025， https://zachcolinwolpe.medium.com/pytorchs-dynamic-graphs-autograd-96ecb3efc158
Using Optimizers from PyTorch - MachineLearningMastery.com, 访问时间为十一月 12, 2025， https://machinelearningmastery.com/using-optimizers-from-pytorch/
访问时间为十一月 12, 2025， https://cs230.stanford.edu/section/5/#:~:text=On%20the%20contrary%2C%20PyTorch%20uses,the%20graph%20at%20any%20time.
PyTorch, 访问时间为十一月 12, 2025， https://pytorch.org/
Compare Deployment Types To Deploy A Model - PyTorch Forums, 访问时间为十一月 12, 2025， https://discuss.pytorch.org/t/compare-deployment-types-to-deploy-a-model/156820
PyTorch 2.x, 访问时间为十一月 12, 2025， https://pytorch.org/get-started/pytorch-2-x/
PyTorch Main Components --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/user_guide/pytorch_main_components.html
访问时间为十一月 12, 2025， https://www.sonarsource.com/blog/pytorch-tensors-neural-networks-and-autograd/#:~:text=Tensors%3A%20The%20fundamental%20building%20blocks,to%20learn%20from%20their%20experience
Tensors --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/tensorqs_tutorial.html
The PyTorch Book - 2 Tensors, 访问时间为十一月 12, 2025， https://aayushmnit.com/pytorch_book/nbs/2_pytorch_tensors.html
PyTorch tensors, neural networks and Autograd: an introduction - Sonar, 访问时间为十一月 12, 2025， https://www.sonarsource.com/blog/pytorch-tensors-neural-networks-and-autograd/
torch --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/torch.html
Introduction to Tensors in Pytorch #2 - tbhaxor's Blog, 访问时间为十一月 12, 2025， https://tbhaxor.com/introduction-to-tensors-in-pytorch-2/
CUDA semantics --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/notes/cuda.html
How to move all tensors to cuda? - PyTorch Forums, 访问时间为十一月 12, 2025， https://discuss.pytorch.org/t/how-to-move-all-tensors-to-cuda/89374
torch.Tensor.cuda --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.Tensor.cuda.html
Why torch.Tensor.cuda() utilizes GPU? - NVIDIA Developer Forums, 访问时间为十一月 12, 2025， https://forums.developer.nvidia.com/t/why-torch-tensor-cuda-utilizes-gpu/216209
What is torch.nn really? --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/nn_tutorial.html
torch.optim --- PyTorch master documentation, 访问时间为十一月 12, 2025， https://alband.github.io/doc_view/optim.html
A Gentle Introduction to torch.autograd --- PyTorch Tutorials 2.9.0+ ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html
Automatic Differentiation with torch.autograd - PyTorch, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/autogradqs_tutorial.html
Understanding PyTorch's autograd.grad and autograd.backward - GeeksforGeeks, 访问时间为十一月 12, 2025， https://www.geeksforgeeks.org/deep-learning/understanding-pytorchs-autogradgrad-and-autogradbackward/
Dynamic vs Static Computational Graphs - PyTorch and TensorFlow - GeeksforGeeks, 访问时间为十一月 12, 2025， https://www.geeksforgeeks.org/deep-learning/dynamic-vs-static-computational-graphs-pytorch-and-tensorflow/
Section 5 (Week 5) - CS230 Deep Learning, 访问时间为十一月 12, 2025， https://cs230.stanford.edu/section/5/
Basic Explanation of torch gradients - '.backward()' vs autograd - PyTorch Forums, 访问时间为十一月 12, 2025， https://discuss.pytorch.org/t/basic-explanation-of-torch-gradients-backward-vs-autograd/80056
Optimizing Model Parameters --- PyTorch Tutorials 2.9.0+cu128 ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/optimization_tutorial.html
torch.autograd.backward --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.autograd.backward.html
3.7 训练和评估--- 深入浅出PyTorch, 访问时间为十一月 12, 2025， https://datawhalechina.github.io/thorough-pytorch/第三章/3.7 训练与评估.html
How exactly does torch.autograd.backward( ) work? | by Saihimal Allu - Medium, 访问时间为十一月 12, 2025， https://medium.com/@saihimalallu/how-exactly-does-torch-autograd-backward-work-f0a671556dc4
Build the Neural Network --- PyTorch Tutorials 2.9.0+cu128 ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/buildmodel_tutorial.html
Module --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.nn.Module.html
Mastering the Basics of torch.nn: A Comprehensive Guide to PyTorch's Neural Network Module | by Sahin Ahmed, Data Scientist | Medium, 访问时间为十一月 12, 2025， https://medium.com/@sahin.samia/mastering-the-basics-of-torch-nn-a-comprehensive-guide-to-pytorchs-neural-network-module-9f2d704e8c7f
Linear --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.nn.Linear.html
Conv2d --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.nn.Conv2d.html
Loss Functions - PyTorch nn - Codecademy, 访问时间为十一月 12, 2025， https://www.codecademy.com/resources/docs/pytorch/nn/loss-functions
CrossEntropyLoss --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html
Beginner's Guide to Pytorch Loss Functions | Zero To Mastery, 访问时间为十一月 12, 2025， https://zerotomastery.io/blog/pytorch-loss-functions/
Transition from Conv2d to Linear Layer Equations - PyTorch Forums, 访问时间为十一月 12, 2025， https://discuss.pytorch.org/t/transition-from-conv2d-to-linear-layer-equations/93850
Transfer Learning for Computer Vision Tutorial --- PyTorch Tutorials ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/transfer_learning_tutorial.html
A Practical Guide to Transfer Learning using PyTorch - KDnuggets, 访问时间为十一月 12, 2025， https://www.kdnuggets.com/2023/06/practical-guide-transfer-learning-pytorch.html
Quickstart --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/quickstart_tutorial.html
Datasets & DataLoaders --- PyTorch Tutorials 2.9.0+cu128 ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/data_tutorial.html
PyTorch 基础:数据的加载和预处理Dataset Dataloader torchvision 包, 访问时间为十一月 12, 2025， https://pytorch-tutorial.readthedocs.io/en/latest/tutorial/chapter02_basics/2_1_4_pytorch-basics-data-loader/
Writing Custom Datasets, DataLoaders and Transforms - PyTorch, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/data_loading_tutorial.html
Datasets --- Torchvision main documentation - PyTorch, 访问时间为十一月 12, 2025， https://docs.pytorch.org/vision/main/datasets.html
Pytorch Basics : Efficient data management with Dataset and Dataloader - Medium, 访问时间为十一月 12, 2025， https://medium.com/@manindersingh120996/pytorch-basics-efficient-data-management-with-dataset-and-dataloader-e3aaebe61681
How to create a torch.utils.data.Dataset and import it into a torch.utils.data.DataLoader, 访问时间为十一月 12, 2025， https://stackoverflow.com/questions/70127516/how-to-create-a-torch-utils-data-dataset-and-import-it-into-a-torch-utils-data-d
How Does Shuffle in DataLoader Work? | by Amit Yadav - Medium, 访问时间为十一月 12, 2025， https://medium.com/@amit25173/how-does-shuffle-in-dataloader-work-1427d998de27
Dataloader just shuffles the order of batches or does it also shuffle the images in each batch? - PyTorch Forums, 访问时间为十一月 12, 2025， https://discuss.pytorch.org/t/dataloader-just-shuffles-the-order-of-batches-or-does-it-also-shuffle-the-images-in-each-batch/60900
How to shuffle the batches themselves in pytorch? - Stack Overflow, 访问时间为十一月 12, 2025， https://stackoverflow.com/questions/65554711/how-to-shuffle-the-batches-themselves-in-pytorch
Training with PyTorch --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/introyt/trainingyt.html
Creating a Training Loop for PyTorch Models - MachineLearningMastery.com, 访问时间为十一月 12, 2025， https://machinelearningmastery.com/creating-a-training-loop-for-pytorch-models/
Learn the Basics --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/intro.html
torch.optim --- PyTorch 2.9 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/docs/stable/optim.html
Building a Neural Network using PyTorch - Codecademy, 访问时间为十一月 12, 2025， https://www.codecademy.com/article/building-a-neural-network-using-pytorch
Save and Load the Model --- PyTorch Tutorials 2.9.0+cu128 ..., 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/basics/saveloadrun_tutorial.html
Saving and Loading Models --- PyTorch Tutorials 2.9.0+cu128 documentation, 访问时间为十一月 12, 2025， https://docs.pytorch.org/tutorials/beginner/saving_loading_models.html
保存和加载模型 - PyTorch, 访问时间为十一月 12, 2025， https://pytorch-cn.com/tutorials/beginner/basics/saveloadrun_tutorial.html
How to save and load models in PyTorch | common-ml-errors -- Weights & Biases - Wandb, 访问时间为十一月 12, 2025， https://wandb.ai/wandb/common-ml-errors/reports/How-to-save-and-load-models-in-PyTorch--VmlldzozMjg0MTE
保存和加载模型 - PyTorch官方教程中文版, 访问时间为十一月 12, 2025， https://pytorch123.com/ThirdSection/SaveModel/
How to implement transfer learning in PyTorch? - GeeksforGeeks, 访问时间为十一月 12, 2025， https://www.geeksforgeeks.org/deep-learning/how-to-implement-transfer-learning-in-pytorch/
Transfer Learning with PyTorch: A Practical Guide | by ServerWala InfraNet FZ-LLC, 访问时间为十一月 12, 2025， https://medium.com/@serverwalainfra/transfer-learning-with-pytorch-a-practical-guide-8cc96aaee377
跟着指南学PyTorch------迁移学习教程（Transfer Learning tutorial - 阿里云天池, 访问时间为十一月 12, 2025， https://tianchi.aliyun.com/notebook/9640
1. PyTorch Transfer Learning - Zero to Mastery Learn PyTorch for Deep Learning, 访问时间为十一月 12, 2025， https://www.learnpytorch.io/06_pytorch_transfer_learning/
$D\] TorchScript model vs ONNX : r/MachineLearning - Reddit, 访问时间为十一月 12, 2025，$