训练与推理时 Tokenizer Padding 用法笔记
核心原则:Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」,适配 DataLoader 并行计算;训练与推理的差异,本质是「是否需要固定长度」,直接影响效率和延迟。
一、训练时:padding="max_length"(固定长度补齐)
1. 核心要求
训练时数据会随机乱序(保证模型泛化性),必须使用 padding=\&\#34;max\_length\&\#34;,手动指定 max\_length,将所有样本统一补齐到该固定长度。
2. 关键原因
-
DataLoader 并行计算的前提:所有样本的
input\_ids形状必须完全一致(如 [batch_size, max_length]),乱序后若长度不统一,会直接报错。 -
固定长度可确保训练过程中,每个 Batch 的 Tensor 维度稳定,避免因样本长度波动导致训练中断。
3. 具体示例(结合之前的代码场景)
假设训练数据有3条文本,设置 max\_length=10,无论原始文本长度如何,均补齐到10。
python
# 训练时代码(关键参数)
encoded = tokenizer(
texts,
padding="max_length", # 固定长度补齐
truncation=True, # 超长截断
max_length=10, # 手动指定固定长度
return_tensors="pt"
)
# 原始文本(长度分别为6、18、3)
texts = [
"我要投诉客服", # 长度6
"今天天气真不错,但是下午突然下大雨了", # 长度18(超长截断)
"你好" # 长度3(补齐到10)
]
# 最终 input_ids 形状(3, 10),所有样本长度均为10
# 样本1(补齐后):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2(截断+补齐):[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3(补齐后):[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注:0 = [PAD],101=[CLS],102=[SEP]
二、推理时:padding=True(动态长度补齐)
1. 核心要求
推理(线上服务、预测)时,使用 padding=True(默认不指定 max_length),按「当前 Batch 内最长的文本长度」动态补齐,不固定统一长度。
2. 关键优势(核心重点)
-
保证形状一致:满足 DataLoader 并行计算需求,避免报错。
-
减少无意义计算:无需补齐到训练时的固定长(如10),只补到当前 Batch 最长值,减少大量 [PAD] 带来的无效计算。
-
降低线上延迟:无效计算减少后,线上服务延迟通常可降低 50%~70%(核心优化点)。
3. 具体示例(对应训练示例,对比更直观)
推理时,同一个 Batch 内3条文本,动态取最长文本长度(假设最长为6),仅补齐到6,无需补到训练时的10。
python
# 推理时代码(关键参数)
encoded = tokenizer(
texts,
padding=True, # 动态补齐(按当前Batch最长)
truncation=True, # 超长截断
# 不指定 max_length,自动适配当前Batch
return_tensors="pt"
)
# 同一批推理文本(长度分别为6、5、3)
texts = [
"我要投诉客服", # 长度6(当前Batch最长)
"今天天气好", # 长度5(补齐到6)
"你好" # 长度3(补齐到6)
]
# 最终 input_ids 形状(3, 6),仅补齐到当前Batch最长的6
# 样本1(无需补齐):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正:长度6(含CLS/SEP)
# 样本2(补齐后):[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正:[101, 791, 2824, 2824, 3698, 2207, 102](长度7?统一说明:含CLS/SEP后,最长为7则补到7)
# 简化理解:当前Batch最长文本(含CLS/SEP)为7,则所有样本补到7,无需补到训练时的10,减少3个[PAD]的无效计算
三、训练与推理 Padding 对比表(重点记忆)
| 对比维度 | 训练时 | 推理时 |
|---|---|---|
| Padding 参数 | padding="max_length" + 指定 max_length | padding=True(不指定 max_length) |
| 补齐长度 | 固定长度(所有 Batch 统一) | 动态长度(按当前 Batch 最长文本) |
| 核心目的 | 适配乱序后的数据并行,保证训练稳定 | 保证并行的同时,减少无效计算,降低延迟 |
| 优缺点 | 优点:稳定;缺点:存在无意义 Padding 计算 | 优点:高效、低延迟;缺点:长度随 Batch 波动(不影响推理) |
| 适用场景 | 模型训练(数据乱序、批量更新) | 线上推理、预测(追求效率和低延迟) |
四、总结(极简好记)
-
训练:固定长(padding="max_length")→ 稳,适配乱序并行。
-
推理:动态长(padding=True)→ 快,砍半延迟,避免无效计算。
-
核心差异:是否固定长度,本质是「训练求稳、推理求快」。
(注:文档部分内容可能由 AI 生成)