Day 43图像数据与显存机制@浙大疏锦行

qq_356196952025-12-21 13:40

Day 43 学习笔记：图像数据与显存机制@浙大疏锦行

一、图像数据基础

数据形状 (Shape)
- 结构化数据 ：(样本数, 特征数)
- 图像数据
  
  ：
  复制代码
```
(通道数, 高, 宽)
```
  PyTorch 默认格式 (Channel First)
  - 灰度图 (如 MNIST)：通道数 = 1
  - 彩色图 (如 CIFAR-10)：通道数 = 3 (RGB)
维度陷阱
- PyTorch 使用 (C, H, W)。
- Matplotlib/OpenCV 通常使用 (H, W, C)。
- 注意：在使用 plt.imshow() 可视化 PyTorch 张量时，必须先使用 np.transpose 或 permute 交换维度顺序。

二、图像神经网络 (MLP) 定义

展平操作 (Flatten)
- MLP 全连接层只能接收一维向量。
- 必须在输入层前使用 nn.Flatten() 或 x.view() 将 (C, H, W) 拉平为 (C×H×W) 的一维向量。
Batch Size 与模型定义
- 模型定义阶段 ：无关。nn.Linear 等层定义时不涉及 Batch Size。
- 数据加载阶段 ：相关。DataLoader 中设置 Batch Size。
- 前向传播：PyTorch 会自动处理第一维度的 Batch，模型内部计算逻辑不变。

三、显存 (VRAM) 占用分析

显存不仅仅用来存图片，主要由以下 4部分 组成：

组成部分	说明	估算公式 (Float32)
1. 模型参数	模型的权重 (Weights) 和偏置 (Bias)	参数量 ×× 4 Bytes
2. 梯度	反向传播计算出的导数	≈≈ 参数量 ×× 4 Bytes
3. 优化器状态	优化器更新参数所需的额外信息	SGD : 0 Adam: ≈≈ 参数量 ×× 8 Bytes (动量+方差)
4. 中间变量 & 数据	输入数据 + 每一层的输出特征图 (Activations)	受 Batch Size 影响最大 Batch Size ×× (单样本大小 + 中间层大小)

结论：模型参数和优化器占用是固定的（这也是为什么大模型很难跑起来），而调整 Batch Size 是控制显存占用的主要手段。

四、 Batch Size 的选择策略

显存限制 (OOM)
- Batch Size 设置过大会导致 Out Of Memory。
- 建议从 16, 32, 64 开始尝试，通常设置为显卡最大承载能力的 80% 左右。
对训练的影响
- Batch Size = 1：梯度随机性大，震荡剧烈，难以收敛。
- Batch Size 较大：利用矩阵并行计算加速；梯度是多个样本的平均值，方向更准，训练更稳定。

@浙大疏锦行

上一篇：VR廉洁教|VR廉政体验馆|VR廉政信息综合平台

下一篇：AI Agent（智能体）简介

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03OpenClaw + 飞书（Feishu）环境搭建指南 04Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 05OpenClaw优化飞书API 额度已耗尽问题 06小黑课堂计算机二级WPSoffice题库软件下载安装教程（2026年3月最新版）07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08Window 10部署openclaw报错node.exe : npm error code 128 09【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 10OpenClaw大龙虾机器人完整安装教程