深度学习基础概念回顾（Pytorch架构）

本篇将详细介绍 PyTorch 深度学习框架，包括pytorch的基础库和函数，以及深度学习中的一些基础概念，如张量、优化器、激活函数、超参数等。

Pytorch

1. PyTorch 简介

PyTorch 是一个开源的深度学习框架，由 Facebook 的人工智能研究院（FAIR）开发和维护。它支持动态计算图（Dynamic Computational Graph），广泛应用于计算机视觉、自然语言处理、强化学习等领域。

2. PyTorch 的主要特点

动态图机制（Dynamic Computation Graph）
- 每次运行模型时都会动态创建计算图。便于调试，与静态图（如 TensorFlow 1.x）相比，代码更直观。
强大的 GPU 支持
- 通过 CUDA 支持 NVIDIA GPU 加速。（tensor.to(device)）
张量（Tensor）操作
- 类似于 NumPy 的多维数组操作。
- 自动求导（autograd），方便计算梯度和反向传播。
模块化，内置函数多
- 模型可以通过继承 nn.Module 自定义。
- 内置常用层（卷积、线性、RNN 等）和损失函数。
工具包多
- TorchVision：计算机视觉工具包。
- TorchText：自然语言处理工具包。
- TorchAudio：音频处理工具包。
- PyTorch Lightning、FastAI 等高层封装，简化训练流程。

3. PyTorch 的核心组成

Tensor（张量）
- PyTorch 的基本数据结构（计算单位），类似于多维数组。
- 支持 GPU 计算、自动求导。
python 复制代码
```
import torch
x = torch.randn(3, 4)  # 创建一个 3x4 的随机张量
y = x + 2               # 张量运算
```
Autograd（自动求导）
- 自动计算梯度，用于反向传播。
python 复制代码
```
x = torch.tensor([2.0], requires_grad=True)
y = x ** 2
y.backward()  # 自动计算梯度
print(x.grad) # 4.0
```
requires_grad=True ：告诉 PyTorch 要追踪这个张量的计算历史，因为我们后面要对它求导（梯度）。有了这个属性，PyTorch 就会记录所有涉及 x 的操作，为反向传播做准备。

nn 模块（神经网络模块）

提供层、损失函数和常用工具。

python 复制代码

import torch.nn as nn
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc = nn.Linear(10, 1)
    def forward(self, x):
        return self.fc(x)

Optimizer（优化器）

更新模型参数，如 SGD、Adam 等。

python 复制代码

import torch.optim as optim
model = SimpleNet()
optimizer = optim.SGD(model.parameters(), lr=0.01)

DataLoader（数据加载）

批量读取数据，支持打乱和多线程加载。

python 复制代码

from torch.utils.data import DataLoader, TensorDataset
dataset = TensorDataset(torch.randn(100, 10), torch.randn(100, 1))
loader = DataLoader(dataset, batch_size=32, shuffle=True)

4. PyTorch 的训练流程

定义模型 ：继承 nn.Module 或使用现成模型。
准备数据 ：使用 DataLoader 加载训练和测试数据。数据清洗、数据划分...
定义损失函数 ：如 nn.MSELoss() 或 nn.CrossEntropyLoss()。
定义优化器 ：如 optim.Adam()。
训练循环：
- 前向传播计算输出。
- 计算损失。
- 反向传播 (loss.backward())。
- 更新参数 (optimizer.step()）。
- 清空梯度 (optimizer.zero_grad())。

Pytorch 基础库和函数

1. 张量（Tensor）相关

PyTorch 的核心是张量，它类似于 NumPy 的多维数组，但支持 GPU 加速和自动求导。

常用库：

python 复制代码

import torch

常用函数：

功能	函数	说明
创建张量	`torch.tensor(data)`	从列表/数组创建张量
随机初始化	`torch.randn(shape)`	标准正态分布随机张量
全零/全一	`torch.zeros(shape)`, `torch.ones(shape)`	初始化张量
形状操作	`x.view()`, `x.reshape()`, `x.squeeze()`, `x.unsqueeze()`	改变张量形状
计算操作	`torch.sum()`, `torch.mean()`, `torch.max()`, `torch.min()`, `torch.argmax()`	常用数学操作
GPU操作	`x.to('cuda')`, `x.cuda()`, `x.cpu()`	张量在 CPU/GPU 间转换
自动求导	`x.requires_grad_()`, `x.grad`	开启梯度计算、获取梯度

2. 自动求导（Autograd）

用于反向传播计算梯度。

3. 神经网络模块（nn）

构建和训练深度学习模型。

python 复制代码

import torch.nn as nn

常用类和函数：

功能	类/函数	说明
模型基类	`nn.Module`	所有模型需继承
全连接层	`nn.Linear(in_features, out_features)`	常用线性层
卷积层	`nn.Conv2d(in_channels, out_channels, kernel_size)`	2D卷积
激活函数	`nn.ReLU()`, `nn.Sigmoid()`, `nn.Softmax(dim)`	非线性激活
损失函数	`nn.MSELoss()`, `nn.CrossEntropyLoss()`, `nn.BCELoss()`	训练目标函数
Dropout/BatchNorm	`nn.Dropout(p)`, `nn.BatchNorm2d(num_features)`	正则化和归一化

4. 优化器（Optimizer）

python 复制代码

import torch.optim as optim

常用类：

优化器	说明
`optim.SGD(model.parameters(), lr=0.01)`	随机梯度下降
`optim.Adam(model.parameters(), lr=0.001)`	自适应学习率优化
`optim.RMSprop(model.parameters(), lr=0.001)`	RMSProp 优化

常用方法：

python 复制代码

optimizer.zero_grad()   # 清空梯度
loss.backward()         # 反向传播
optimizer.step()        # 更新参数

5. 数据加载（DataLoader）

python 复制代码

from torch.utils.data import Dataset, DataLoader, TensorDataset

6. 其他常用工具

设备管理：

python 复制代码

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
x = x.to(device)
model.to(device)

保存与加载模型：

python 复制代码

torch.save(model.state_dict(), 'model.pth')  # 保存模型参数
model.load_state_dict(torch.load('model.pth'))  # 加载模型参数

梯度裁剪（防止梯度爆炸）：

python 复制代码

torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)

总结来说，PyTorch 最常用的库主要包括：

torch → 张量操作 & 自动求导
torch.nn → 神经网络层 & 损失函数
torch.optim → 优化器
torch.utils.data → 数据加载
torch.cuda / device → GPU 加速