知识点回顾总结
- 图像数据的格式
灰度数据:单通道(1个维度),像素值通常为0~255,表示亮度。
彩色数据:三通道(RGB,3个维度),每个通道代表红、绿、蓝的强度。
- 模型的定义
指神经网络的架构,包括层数、每层的神经元数量、激活函数等。
定义方式:通过框架(如PyTorch的nn.Module)构建计算图。
- 显存占用的4种地方
a. 模型参数 + 梯度参数:存储权重及反向传播时的梯度。
b. 优化器参数:如Adam优化器会保存动量(momentum)等额外变量。
c. 数据批量所占显存:输入数据(batch)的存储空间。
d. 神经元输出中间状态:前向传播时各层的输出(用于反向传播)。
- Batch Size 和训练的关系
增大 Batch Size:
提高训练速度(并行计算更高效)。
可能降低模型泛化能力(梯度估计更精确,但易陷入局部最优)。
显存占用增加(需存储更多数据、中间变量)。
减小 Batch Size:
训练更"噪声大"(梯度波动大,可能帮助逃离局部最优)。
显存占用减少,适合小显存设备。
训练速度变慢(数据利用率低)。
平衡点:需根据硬件(显存)和模型效果调整,通常通过实验选择最佳 batch size。
总结:理解数据格式、模型结构、显存分配和 batch size 的影响,能更高效地训练深度学习模型。