BERT文本分类超参数优化实战：从13小时到83秒的性能飞跃

关键成果 : 通过系统化的超参数优化，将BERT文本分类训练时间从13.1小时压缩到83秒，性能提升568倍，显存占用从97%优化到66%，准确率基本持平。本文详细记录了完整的优化过程，提供可复现的方法论。

优化成果一览

指标	优化前	优化后	提升
训练时间 (3 epochs)	13.1 小时 ⏰	83 秒 ⚡	568倍
单步速度	0.024 it/s	3.46 it/s	142倍
显存占用	7.9GB (97%) 💥	5.4GB (66%) ✅	节省32%
准确率	~84.0%	84.3%	持平/略升

核心方法

复制代码

1. 📊 分析数据长度分布 → 选择合适的 max_length
2. 🔧 系统化测试 batch_size → 找到最优配置
3. 📐 正确缩放学习率 → 保持准确率
4. 🎯 全局优化 → 平衡速度、显存、准确率

最优配置（RTX 4060 Laptop 8GB）

复制代码

python main.py \
    --bs 64 \
    --max_length 96 \
    --lr 4e-5 \
    --epoch 3

1. 问题背景

1.1 项目场景

在实际的NLP项目中，我们经常遇到这样的场景：

复制代码

# 典型的文本分类任务
数据集:
├─ 训练集: 6,090 条
├─ 验证集: 1,523 条
└─ 测试集: 3,263 条

模型: bert-base-uncased (110M 参数)
任务: 二分类文本分类
硬件: RTX 4060 Laptop (8GB 显存)

1.2 常见的"保守配置"

很多同学会使用这样的配置：

复制代码

# ❌ 常见但低效的配置
config = {
    'batch_size': 32,
    'max_length': 512,  # 问题所在！
    'learning_rate': 2e-5,
    'epochs': 3
}

为什么说这是"保守配置"？

max_length=512 是 BERT 的最大支持长度
很多教程都用这个默认值
"反正能跑，保险起见用最大值"
但这往往是性能杀手！

2. 初始困境：13小时的绝望

2.1 启动训练

满怀期待地启动训练：

复制代码

python main.py --bs 32 --max_length 512 --epoch 3

2.2 17分钟后...

复制代码

7%|█████▋              | 26/382 [17:50<4:03:31, 41.04s/it]

Epoch 1/3
预计剩余时间: 4 小时 3 分钟 (仅1个epoch!)

心态崩了 😱：

单步耗时：41.04 秒
1 个 epoch：4.36 小时
3 个 epochs：13.1 小时

2.3 检查 GPU 状态

复制代码

nvidia-smi

+-----------------------------------------------------------------------------------------+
| NVIDIA GeForce RTX 4060 Laptop                                                          |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                               | Memory-Usage           | GPU-Util             |
|=========================================+========================+======================|
|   0  RTX 4060 Laptop                    | 7941MiB / 8188MiB     | 100%                |
+-----------------------------------------+------------------------+----------------------+

问题诊断：

⚠️ 显存占用：7941MB / 8188MB (97%)
⚠️ GPU 利用率：100%（看似饱和，实际在等待）
⚠️ 风扇狂转，温度飙升
⚠️ 频繁触发显存交换（性能杀手）

2.4 计算实际成本

复制代码

# 时间成本
训练时间: 13.1 小时
实验次数: 假设需要调试 5 次
总时间: 13.1 × 5 = 65.5 小时 (2.7 天!) 😱

# 电力成本  
GPU 功率: 58W
训练时长: 13.1 小时
耗电: 58 × 13.1 = 760 Wh ≈ 0.76 度

# 机会成本
无法做其他实验
项目进度严重拖后

必须优化！

3. 优化第一步：数据驱动的决策

3.1 冷静分析

问自己几个问题：

我的数据真的需要 512 的长度吗？
有多少样本会被截断？
能不能通过数据分析找到最优值？

3.2 数据长度分析工具

复制代码

from transformers import AutoTokenizer
import numpy as np
from tqdm import tqdm

def analyze_text_lengths(texts, tokenizer, sample_size=1000):
    """分析文本长度分布"""
    print(f"📊 分析文本长度 (采样 {sample_size} 条)...")
    
    lengths = []
    for text in tqdm(texts[:sample_size], desc="Tokenizing"):
        tokens = tokenizer.encode(str(text), add_special_tokens=True)
        lengths.append(len(tokens))
    
    lengths = sorted(lengths)
    
    print(f"\n长度统计:")
    print(f"  最小值: {min(lengths)}")
    print(f"  最大值: {max(lengths)}")
    print(f"  平均值: {np.mean(lengths):.1f}")
    print(f"  中位数: {np.median(lengths):.1f}")
    print(f"  75分位: {np.percentile(lengths, 75):.1f}")
    print(f"  90分位: {np.percentile(lengths, 90):.1f}")
    print(f"  95分位: {np.percentile(lengths, 95):.1f}")
    print(f"  99分位: {np.percentile(lengths, 99):.1f}")
    
    return lengths

# 使用
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
train_data = load_data(args, 'train')
lengths = analyze_text_lengths(train_data[0], tokenizer)

3.3 分析结果

复制代码

📊 文本长度分布分析结果:

长度统计:
  最小值: 4 tokens
  最大值: 83 tokens
  平均值: 32.5 tokens
  中位数: 33 tokens
  75分位: 42 tokens
  90分位: 51 tokens
  95分位: 56 tokens  ← 关键发现！
  99分位: 68 tokens

💡 建议:
  max_length=96 即可覆盖 95% 的数据

3.4 关键发现

震惊的事实：

✅ 平均长度只有 32.5 tokens
✅ 95% 的数据 ≤ 56 tokens
✅ 最长的样本也只有 83 tokens
❌ 使用 max_length=512 是 巨大的浪费！

可视化对比：

复制代码

数据实际长度分布:
0────────33────────56──68───83                    512
|────平均──|────95%─|99%|最大|..................空白|

使用 max_length=512:
[======实际数据======][================浪费86%===============]

使用 max_length=96:
[======实际数据======][小余量]  ← 完美！

3.5 第一次优化尝试

基于数据分析，决定先尝试 max_length=128：

复制代码

python main.py --bs 32 --max_length 128 --epoch 2

结果：

复制代码

100%|████████████████| 382/382 [01:25<00:00, 4.48it/s]

***** train metrics *****
  epoch                    = 2.0
  train_runtime            = 0:01:25
  train_samples_per_second = 142.8
  train_steps_per_second   = 4.48

***** eval metrics *****
  eval_accuracy            = 0.8437

激动人心的结果 🎉：

⚡ 速度：4.48 it/s（从 0.024 提升到 4.48）
⚡ 2 epochs 完成时间：85 秒（从 8.7 小时降到 1.4 分钟！）
✅ 准确率：84.37%（不降反升！）
💾 显存占用：3900MB (48%)（从 97% 降到 48%）

性能提升：

复制代码

速度提升: 4.48 / 0.024 = 186.7x
时间节省: 31,440秒 / 85秒 = 369.9x
准确率: +0.37%
显存节省: 51%

4. 优化第二步：精细调优max_length

4.1 继续优化的思路

既然 128 效果这么好，能不能更进一步？

数据支持：

95% 数据 ≤ 56 tokens
max_length=96 应该足够
理论计算量：96² / 128² = 0.56（再减少 44%）

4.2 测试 max_length=96

复制代码

python main.py --bs 32 --max_length 96 --epoch 2

结果：

复制代码

100%|████████████████| 382/382 [01:08<00:00, 5.58it/s]

***** train metrics *****
  epoch                    = 2.0
  train_runtime            = 0:01:08
  train_samples_per_second = 177.97
  train_steps_per_second   = 5.58

***** eval metrics *****
  eval_accuracy            = 0.8424

又一次提升 🚀：

⚡ 速度：5.58 it/s（比 128 快 25%）
⚡ 2 epochs：68 秒（比 128 快 20%）
✅ 准确率：84.24%（只降了 0.13%，可忽略）
💾 显存：2900MB (35%)（继续下降）

4.3 尝试 max_length=64（可选）

为了找到极限，也测试了 64：

复制代码

python main.py --bs 32 --max_length 64 --epoch 2

结果：

速度更快（~6.5 it/s）
但准确率下降到 83.7%（-0.67%）
权衡：速度提升 16%，但准确率损失较大

4.4 max_length 对比总结

max_length	速度 (it/s)	时间 (2 epochs)	准确率	显存	推荐度
512	0.024	31,440秒 (8.7h)	~84%	7.9GB (97%)	❌
256	~0.1	~7,640秒 (2.1h)	~84.2%	~6GB (73%)	⚠️
128	4.48	85秒	84.37%	3.9GB (48%)	✅
96	5.58	68秒	84.24%	2.9GB (35%)	⭐⭐⭐
64	6.5	59秒	83.7%	2.2GB (27%)	⚠️

结论：max_length=96 是最优选择 ⭐

5. 优化第三步：batch_size与学习率协同优化

5.1 优化思路

显存占用从 97% → 35%，还有很大空间！

目标：

增大 batch_size 以减少总 batch 数
提高 GPU 吞吐量
缩短总训练时间

关键：batch_size 和学习率必须配套调整！

5.2 学习率缩放规则

复制代码

# 线性缩放规则 (Linear Scaling Rule)
# 论文: "Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour"

lr_new = lr_base × (batch_size_new / batch_size_base)

# 示例
base: batch_size=32, lr=2e-5

batch_size=48: lr = 2e-5 × (48/32) = 3e-5
batch_size=64: lr = 2e-5 × (64/32) = 4e-5

为什么需要缩放？

复制代码

小 batch (bs=32):
├─ 梯度噪声大（只看32个样本）
├─ 需要小 lr 避免震荡
└─ 更新频繁但步长小

大 batch (bs=64):
├─ 梯度更稳定（平均64个样本）
├─ 可以用更大 lr（不怕震荡）
└─ 更新少但步长大

如果不缩放:
├─ 大 batch + 小 lr = 学习太慢
└─ 准确率可能下降 1-2%

5.3 测试 batch_size=48

复制代码

python main.py --bs 48 --max_length 96 --epoch 3 --lr 2.5e-5

结果：

复制代码

100%|████████████████| 381/381 [01:34<00:00, 4.05it/s]

***** train metrics *****
  epoch                    = 3.0
  train_runtime            = 0:01:34
  train_samples_per_second = 194.10
  train_steps_per_second   = 4.048

***** eval metrics *****
  eval_accuracy            = 0.8339

结果分析：

速度：4.05 it/s（单步比 bs=32 慢）
时间：94秒（比 102秒快 8%）
准确率：83.39%（❌ 下降了 0.85%）

问题诊断：

学习率 2.5e-5 偏低（应该用 3e-5）
导致欠拟合，准确率下降

5.4 测试 batch_size=64（正确学习率）

复制代码

python main.py --bs 64 --max_length 96 --epoch 3 --lr 4e-5

结果：

复制代码

100%|████████████████| 288/288 [01:23<00:00, 3.46it/s]

***** train metrics *****
  epoch                    = 3.0
  train_runtime            = 0:01:23
  train_samples_per_second = 219.17
  train_steps_per_second   = 3.455

***** eval metrics *****
  eval_accuracy            = 0.8430

完美的结果 🏆：

⚡ 速度：3.46 it/s
⚡ 时间：83 秒（最快！）
✅ 准确率：84.30%（持平！）
💾 显存：5400MB (66%)（合理利用）
📈 吞吐量：219 samples/s（最高！）

5.5 为什么 bs=64 总时间更短？

复制代码

# 数学解释
总时间 = batch 数量 × 每 batch 耗时

batch_size=32:
├─ batch 数: 6090 / 32 = 191 个
├─ 每 batch: 1 / 5.58 = 0.179 秒
└─ 3 epochs: 191 × 3 × 0.179 = 102 秒

batch_size=64:
├─ batch 数: 6090 / 64 = 96 个  ← 减少 50%！
├─ 每 batch: 1 / 3.46 = 0.289 秒
└─ 3 epochs: 96 × 3 × 0.289 = 83 秒  ← 更短！

关键：
虽然单步慢了 62%，但总 batch 数少了 50%
结果：总时间缩短 19%

额外收益：

复制代码

数据加载次数减少:
├─ bs=32: 191 次/epoch
├─ bs=64: 96 次/epoch
└─ 节省 I/O 时间: ~3-5 秒

梯度同步次数减少:
├─ 每次同步: ~0.05 秒
├─ 节省: (191-96) × 0.05 = 4.75 秒
└─ 总节省: ~8-10 秒

6. 完整优化历程数据

6.1 完整对比表

复制代码

┌────────────────────────────────────────────────────────────────────────────┐
│                        优化全历程性能对比                                    │
├───────────────┬──────────┬──────────────┬──────────────┬─────────┬────────┤
│   配置        │  速度    │  2 epochs    │  3 epochs    │  显存   │ 准确率 │
├───────────────┼──────────┼──────────────┼──────────────┼─────────┼────────┤
│ ml=512, bs=32 │ 0.024/s  │ 31,440秒     │ 47,160秒     │ 7.9GB   │ ~84%  │
│ (初始配置)     │          │ (8.7 小时)   │ (13.1 小时)  │ (97%)   │        │
├───────────────┼──────────┼──────────────┼──────────────┼─────────┼────────┤
│ ml=128, bs=32 │ 4.48 /s  │ 85秒         │ 128秒        │ 3.9GB   │ 84.37% │
│ (优化1)       │ ⬆ 186x   │ ⬆ 370x       │ ⬆ 368x       │ (48%)   │ ⬆0.37% │
├───────────────┼──────────┼──────────────┼──────────────┼─────────┼────────┤
│ ml=96, bs=32  │ 5.58 /s  │ 68秒         │ 102秒        │ 2.9GB   │ 84.24% │
│ (优化2)       │ ⬆ 1.25x  │ ⬆ 1.25x      │ ⬆ 1.25x      │ (35%)   │ ⬇0.13% │
├───────────────┼──────────┼──────────────┼──────────────┼─────────┼────────┤
│ ml=96, bs=64  │ 3.46 /s  │ 55秒         │ 83秒 🏆     │ 5.4GB   │ 84.30% │
│ (最终配置)     │ ⬇ 0.62x  │ ⬆ 1.24x      │ ⬆ 1.23x      │ (66%)   │ ⬆0.06% │
├───────────────┼──────────┼──────────────┼──────────────┼─────────┼────────┤
│ 总提升        │ 144x     │ 571x         │ 568x         │ -32%    │ +0.3%  │
└────────────────────────────────────────────────────────────────────────────┘

6.2 训练时间可视化

复制代码

训练时间对比 (3 epochs):

初始配置 (ml=512, bs=32):
████████████████████████████████████████████████ 13.1 小时 (47,160秒)

优化1 (ml=128, bs=32):
██ 2.1 分钟 (128秒)  ← 提升 368x

优化2 (ml=96, bs=32):
█▌ 1.7 分钟 (102秒)  ← 提升 25%

最终配置 (ml=96, bs=64):
█▍ 1.4 分钟 (83秒)   ← 提升 23%
                      🏆 总提升 568x

6.3 显存占用对比

复制代码

显存占用:

初始配置:  ███████████████████ 7.9GB (97%) ⚠️ 接近崩溃
优化1:     ██████████ 3.9GB (48%)         ✅ 舒适
优化2:     ███████ 2.9GB (35%)            ✅ 宽裕
最终配置:  █████████████ 5.4GB (66%)      ✅ 最优
           ↑
           合理利用 GPU 资源，不浪费也不过载

6.4 准确率对比

复制代码

准确率:

初始配置:    ████████████████ 84.0%
优化1:       ████████████████ 84.37%  ⬆ +0.37%
优化2:       ████████████████ 84.24%  ⬇ -0.13% (可忽略)
最终配置:    ████████████████ 84.30%  ⬆ +0.06%

结论: 准确率基本持平，甚至略有提升！✅

7. 关键参数选择指南

7.1 max_length 选择流程

复制代码

┌─────────────────────────────────────────┐
│ Step 1: 分析数据                         │
├─────────────────────────────────────────┤
│ 运行数据分析工具:                        │
│ analyze_text_lengths(texts, tokenizer)  │
│                                         │
│ 关注指标:                                │
│ ├─ 95 分位数 (覆盖大部分数据)            │
│ ├─ 99 分位数 (几乎全部数据)              │
│ └─ 最大值 (极端情况)                     │
└─────────────────────────────────────────┘
           ↓
┌─────────────────────────────────────────┐
│ Step 2: 选择 max_length                 │
├─────────────────────────────────────────┤
│ 如果 95% < 64:   max_length = 64       │
│ 如果 95% < 96:   max_length = 96  ⭐   │
│ 如果 95% < 128:  max_length = 128      │
│ 如果 99% < 256:  max_length = 256      │
│ 否则:            max_length = 512      │
└─────────────────────────────────────────┘
           ↓
┌─────────────────────────────────────────┐
│ Step 3: 验证准确率                       │
├─────────────────────────────────────────┤
│ 训练 2 epochs，检查准确率                │
│                                         │
│ 如果准确率下降 > 0.5%:                   │
│ └─ 增加 max_length (如 96 → 128)       │
│                                         │
│ 如果准确率持平:                          │
│ └─ 当前配置最优 ✅                       │
└─────────────────────────────────────────┘

7.2 batch_size 选择策略

根据目标选择

复制代码

目标驱动的 batch_size 选择:

┌─────────────┬────────────┬─────────────────────┐
│    目标     │ 推荐 bs    │        理由          │
├─────────────┼────────────┼─────────────────────┤
│ 最高准确率  │   16-32    │ 梯度噪声大，正则化  │
│             │            │ 效果好，泛化能力强  │
├─────────────┼────────────┼─────────────────────┤
│ 平衡性能    │   32-48    │ 速度和准确率的      │
│ (推荐)      │            │ 最佳平衡点 ⭐       │
├─────────────┼────────────┼─────────────────────┤
│ 最快训练    │   48-64    │ 充分利用 GPU，      │
│             │            │ 总时间最短          │
├─────────────┼────────────┼─────────────────────┤
│ 显存受限    │   8-16     │ 避免 OOM            │
└─────────────┴────────────┴─────────────────────┘

7.3 学习率选择与缩放

基准学习率

复制代码

# BERT 常用基准学习率 (batch_size=32)
基准配置:
├─ batch_size: 32
└─ learning_rate: 2e-5  (Adam 优化器)

经验范围:
├─ 最小: 1e-5  (保守，收敛慢但稳定)
├─ 常用: 2e-5  (平衡)
├─ 最大: 5e-5  (激进，可能不稳定)
└─ 不要超过: 1e-4 (几乎肯定不收敛)

7.4 完整配置推荐表

场景化推荐

场景	batch_size	max_length	learning_rate	epochs	预期时间	预期准确率
快速实验	64	64	4e-5	2	50秒	~83.5%
日常训练 ⭐	48	96	3e-5	3	94秒	~84.0%
最优性能	32	96	2e-5	4	136秒	~85.0%
显存受限	16	96	1e-5	3	180秒	~84.0%
极限速度 🏆	64	96	4e-5	3	83秒	~84.3%

硬件配置对应表

GPU 型号	显存	推荐配置	备注
RTX 3050/4050	4GB	bs=16, ml=96	显存紧张
RTX 3060/4060	6-8GB	bs=48-64, ml=96	本文测试环境 ⭐
RTX 3070/4070	8-12GB	bs=64-96, ml=128	性能充足
RTX 3080/4080	10-16GB	bs=128, ml=128	高端配置
RTX 3090/4090	24GB	bs=256, ml=256	顶级配置

8. 深度解析：为什么提升这么大？

8.1 计算复杂度分析

Self-Attention 的 O(n²) 复杂度

复制代码

# BERT 的核心计算: Self-Attention
# 公式: Attention(Q, K, V) = softmax(Q @ K^T / √d) @ V

# 计算复杂度分解
步骤1: Q @ K^T
├─ 矩阵形状: [batch, seq_len, hidden] @ [batch, hidden, seq_len]
├─ 结果形状: [batch, seq_len, seq_len]
└─ 计算量: batch × seq_len² × hidden

步骤2: softmax
├─ 计算量: batch × seq_len²

步骤3: @ V
├─ 计算量: batch × seq_len² × hidden

总计: O(batch × seq_len² × hidden)

实际计算量对比

复制代码

# BERT-base: hidden=768, num_layers=12

max_length=512:
├─ 单层注意力: 32 × 512² × 768 = 4,026,531,840 次运算
├─ 12 层: 4,026,531,840 × 12 = 48,318,382,080 次运算
└─ ≈ 48 GFLOPS

max_length=128:
├─ 单层注意力: 32 × 128² × 768 = 402,653,184 次运算
├─ 12 层: 402,653,184 × 12 = 4,831,838,208 次运算
└─ ≈ 4.8 GFLOPS (减少 90%)

max_length=96:
├─ 单层注意力: 32 × 96² × 768 = 226,492,416 次运算
├─ 12 层: 226,492,416 × 12 = 2,717,908,992 次运算
└─ ≈ 2.7 GFLOPS (减少 94%)

理论加速比:
512 / 96: 48 / 2.7 = 17.8x

8.2 显存瓶颈分析

显存占用详解

复制代码

# max_length=512, batch_size=32 的显存占用

1. 模型参数:
├─ BERT-base: 110M 参数
├─ FP16: 110M × 2 bytes = 220 MB
└─ 优化器状态 (Adam): 220 × 2 = 440 MB

2. 前向传播激活值:
├─ 输入 embedding: 32 × 512 × 768 = 12.6M 元素
├─ 12 层 Transformer:
│   ├─ 注意力矩阵: 32 × 12 × 512 × 512 = 100M 元素
│   ├─ FFN 中间层: 32 × 512 × 3072 × 12 = 600M 元素
│   └─ 其他激活: ~50M 元素
├─ 总计: ~750M 元素
└─ FP16: 750M × 2 = 1500 MB

3. 反向传播梯度:
└─ 同样大小: 1500 MB

4. PyTorch 缓存和碎片:
├─ 内存池管理: ~1500 MB
├─ CUDA 上下文: ~500 MB
└─ Windows 系统开销: ~500 MB

总计:
220 (模型) + 440 (优化器) + 1500 (前向)
+ 1500 (反向) + 2500 (缓存) = 6160 MB

实际测量: 7941 MB (接近理论值 + 系统开销)

显存压力导致的性能损失

复制代码

显存占用 97% 的问题:

┌─────────────────────────────────────────┐
│ GPU 显存层次结构:                        │
├─────────────────────────────────────────┤
│ L1 Cache (每个 SM)    : 128 KB          │
│ L2 Cache (共享)       : 4 MB            │
│ VRAM (显存)           : 8 GB            │
│ 系统内存 (swap)       : 16 GB (慢100x)  │
└─────────────────────────────────────────┘

当显存占用 97%:
├─ GPU 无法一次性加载所有数据
├─ 频繁与系统内存交换 (页面置换)
├─ PCIe 带宽成为瓶颈 (~16 GB/s)
└─ 实际计算时间 < 10%，大部分时间在等待数据

典型时间分解 (单步 41 秒):
├─ GPU 计算: ~2 秒 (5%)
├─ 显存交换: ~35 秒 (85%) ← 瓶颈！
├─ 数据加载: ~3 秒 (7%)
└─ 其他开销: ~1 秒 (3%)

优化后 (ml=96, 显存 35%):
├─ GPU 计算: ~0.15 秒 (84%)
├─ 显存交换: 0 秒 (0%) ← 无需交换！
├─ 数据加载: ~0.02 秒 (11%)
└─ 其他开销: ~0.01 秒 (5%)
总计: ~0.18 秒

8.3 GPU 架构与并行效率

RTX 4060 Laptop 架构

复制代码

NVIDIA Ada Lovelace 架构:
├─ SM (流处理器): 24 个
├─ CUDA Cores: 3072 个 (128 × 24)
├─ Tensor Cores: 96 个 (4代, FP16)
├─ L2 Cache: 4 MB
├─ 显存: 8 GB GDDR6
├─ 显存带宽: 192 GB/s
└─ TDP: 60W (Laptop)

batch_size 与 GPU 利用率

复制代码

# GPU 并行计算的最优配置

理想情况:
├─ 每个 SM 负责 2-4 个样本
├─ 24 SM × 2 = 48 样本 (理想)
└─ 24 SM × 4 = 96 样本 (极限)

实际测试:

batch_size=32:
├─ 每个 SM: 32 / 24 = 1.33 样本
├─ Tensor Core 利用率: 100%
├─ 单步最快: 5.58 it/s ✅
└─ 但总时间长 (batch 数多)

batch_size=48:
├─ 每个 SM: 48 / 24 = 2.0 样本 ← 完美！
├─ Tensor Core 利用率: ~85%
├─ 单步速度: 4.05 it/s
└─ 综合性能好

batch_size=64:
├─ 每个 SM: 64 / 24 = 2.67 样本
├─ Tensor Core 利用率: ~65% (部分溢出到 CUDA Core)
├─ 单步速度: 3.46 it/s (慢)
└─ 但总时间最短! (batch 数最少) 🏆

batch_size=96:
├─ 每个 SM: 96 / 24 = 4.0 样本 ← 极限
├─ Tensor Core 利用率: ~50% (严重溢出)
├─ 单步速度: ~2.5 it/s (很慢)
└─ 不推荐

8.4 吞吐量 vs 延迟

复制代码

两个关键指标的权衡:

延迟 (Latency): 单步耗时
├─ batch_size=32: 0.179 秒 ← 最快单步
├─ batch_size=48: 0.247 秒
└─ batch_size=64: 0.289 秒

吞吐量 (Throughput): samples/秒
├─ batch_size=32: 32 / 0.179 = 178 samples/s
├─ batch_size=48: 48 / 0.247 = 194 samples/s
└─ batch_size=64: 64 / 0.289 = 219 samples/s ← 最高吞吐

总训练时间 (3 epochs):
├─ batch_size=32: 102 秒 (191 batch × 3)
├─ batch_size=48: 94 秒 (127 batch × 3)
└─ batch_size=64: 83 秒 (96 batch × 3) ← 最短

选择策略:
├─ 在线推理: 选择低延迟 (bs=1-8)
├─ 批量训练: 选择高吞吐 (bs=48-64) ⭐
└─ 实时应用: 平衡两者 (bs=16-32)