Day39 - 技术栈

Day39

m0_625686552025-06-23 15:45

知识点回顾总结

灰度数据：单通道（1个维度），像素值通常为0~255，表示亮度。

彩色数据：三通道（RGB，3个维度），每个通道代表红、绿、蓝的强度。

指神经网络的架构，包括层数、每层的神经元数量、激活函数等。

定义方式：通过框架（如PyTorch的nn.Module）构建计算图。

a. 模型参数 + 梯度参数：存储权重及反向传播时的梯度。

b. 优化器参数：如Adam优化器会保存动量（momentum）等额外变量。

c. 数据批量所占显存：输入数据（batch）的存储空间。

d. 神经元输出中间状态：前向传播时各层的输出（用于反向传播）。

增大 Batch Size：

提高训练速度（并行计算更高效）。

可能降低模型泛化能力（梯度估计更精确，但易陷入局部最优）。

显存占用增加（需存储更多数据、中间变量）。

减小 Batch Size：

训练更"噪声大"（梯度波动大，可能帮助逃离局部最优）。

显存占用减少，适合小显存设备。

训练速度变慢（数据利用率低）。

平衡点：需根据硬件（显存）和模型效果调整，通常通过实验选择最佳 batch size。

总结：理解数据格式、模型结构、显存分配和 batch size 的影响，能更高效地训练深度学习模型。