训练与推理时 Tokenizer Padding 用法笔记

核心原则：Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」，适配 DataLoader 并行计算；训练与推理的差异，本质是「是否需要固定长度」，直接影响效率和延迟。

一、训练时：padding="max_length"（固定长度补齐）

1. 核心要求

训练时数据会随机乱序（保证模型泛化性），必须使用 padding=\&\#34;max\_length\&\#34;，手动指定 max\_length，将所有样本统一补齐到该固定长度。

2. 关键原因

DataLoader 并行计算的前提：所有样本的 input\_ids 形状必须完全一致（如 [batch_size, max_length]），乱序后若长度不统一，会直接报错。
固定长度可确保训练过程中，每个 Batch 的 Tensor 维度稳定，避免因样本长度波动导致训练中断。

3. 具体示例（结合之前的代码场景）

假设训练数据有3条文本，设置 max\_length=10，无论原始文本长度如何，均补齐到10。

python 复制代码

# 训练时代码（关键参数）
encoded = tokenizer(
    texts,
    padding="max_length",  # 固定长度补齐
    truncation=True,       # 超长截断
    max_length=10,         # 手动指定固定长度
    return_tensors="pt"
)

# 原始文本（长度分别为6、18、3）
texts = [
    "我要投诉客服",           # 长度6
    "今天天气真不错，但是下午突然下大雨了", # 长度18（超长截断）
    "你好"                   # 长度3（补齐到10）
]

# 最终 input_ids 形状（3, 10），所有样本长度均为10
# 样本1（补齐后）：[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2（截断+补齐）：[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3（补齐后）：[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注：0 = [PAD]，101=[CLS]，102=[SEP]

二、推理时：padding=True（动态长度补齐）

1. 核心要求

推理（线上服务、预测）时，使用 padding=True（默认不指定 max_length），按「当前 Batch 内最长的文本长度」动态补齐，不固定统一长度。

2. 关键优势（核心重点）

保证形状一致：满足 DataLoader 并行计算需求，避免报错。
减少无意义计算：无需补齐到训练时的固定长（如10），只补到当前 Batch 最长值，减少大量 [PAD] 带来的无效计算。
降低线上延迟：无效计算减少后，线上服务延迟通常可降低 50%~70%（核心优化点）。

3. 具体示例（对应训练示例，对比更直观）

推理时，同一个 Batch 内3条文本，动态取最长文本长度（假设最长为6），仅补齐到6，无需补到训练时的10。

python 复制代码

# 推理时代码（关键参数）
encoded = tokenizer(
    texts,
    padding=True,          # 动态补齐（按当前Batch最长）
    truncation=True,       # 超长截断
    # 不指定 max_length，自动适配当前Batch
    return_tensors="pt"
)

# 同一批推理文本（长度分别为6、5、3）
texts = [
    "我要投诉客服",           # 长度6（当前Batch最长）
    "今天天气好",             # 长度5（补齐到6）
    "你好"                   # 长度3（补齐到6）
]

# 最终 input_ids 形状（3, 6），仅补齐到当前Batch最长的6
# 样本1（无需补齐）：[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正：长度6（含CLS/SEP）
# 样本2（补齐后）：[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正：[101, 791, 2824, 2824, 3698, 2207, 102]（长度7？统一说明：含CLS/SEP后，最长为7则补到7）
# 简化理解：当前Batch最长文本（含CLS/SEP）为7，则所有样本补到7，无需补到训练时的10，减少3个[PAD]的无效计算

三、训练与推理 Padding 对比表（重点记忆）

对比维度	训练时	推理时
Padding 参数	padding="max_length" + 指定 max_length	padding=True（不指定 max_length）
补齐长度	固定长度（所有 Batch 统一）	动态长度（按当前 Batch 最长文本）
核心目的	适配乱序后的数据并行，保证训练稳定	保证并行的同时，减少无效计算，降低延迟
优缺点	优点：稳定；缺点：存在无意义 Padding 计算	优点：高效、低延迟；缺点：长度随 Batch 波动（不影响推理）
适用场景	模型训练（数据乱序、批量更新）	线上推理、预测（追求效率和低延迟）

四、总结（极简好记）

训练：固定长（padding="max_length"）→ 稳，适配乱序并行。
推理：动态长（padding=True）→ 快，砍半延迟，避免无效计算。
核心差异：是否固定长度，本质是「训练求稳、推理求快」。

（注：文档部分内容可能由 AI 生成）

训练与推理时 Tokenizer Padding 用法笔记

训练与推理时 Tokenizer Padding 用法笔记

一、训练时：padding=&#34;max_length&#34;（固定长度补齐）

1. 核心要求

2. 关键原因

3. 具体示例（结合之前的代码场景）

二、推理时：padding=True（动态长度补齐）

1. 核心要求

2. 关键优势（核心重点）

3. 具体示例（对应训练示例，对比更直观）

三、训练与推理 Padding 对比表（重点记忆）

四、总结（极简好记）

一、训练时：padding="max_length"（固定长度补齐）