训练与推理时 Tokenizer Padding 用法笔记

训练与推理时 Tokenizer Padding 用法笔记

核心原则:Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」,适配 DataLoader 并行计算;训练与推理的差异,本质是「是否需要固定长度」,直接影响效率和延迟。

一、训练时:padding="max_length"(固定长度补齐)

1. 核心要求

训练时数据会随机乱序(保证模型泛化性),必须使用 padding=\&\#34;max\_length\&\#34;,手动指定 max\_length,将所有样本统一补齐到该固定长度。

2. 关键原因

  • DataLoader 并行计算的前提:所有样本的 input\_ids 形状必须完全一致(如 batch_size, max_length),乱序后若长度不统一,会直接报错。

  • 固定长度可确保训练过程中,每个 Batch 的 Tensor 维度稳定,避免因样本长度波动导致训练中断。

3. 具体示例(结合之前的代码场景)

假设训练数据有3条文本,设置 max\_length=10,无论原始文本长度如何,均补齐到10。

python 复制代码
# 训练时代码(关键参数)
encoded = tokenizer(
    texts,
    padding="max_length",  # 固定长度补齐
    truncation=True,       # 超长截断
    max_length=10,         # 手动指定固定长度
    return_tensors="pt"
)

# 原始文本(长度分别为6、18、3)
texts = [
    "我要投诉客服",           # 长度6
    "今天天气真不错,但是下午突然下大雨了", # 长度18(超长截断)
    "你好"                   # 长度3(补齐到10)
]

# 最终 input_ids 形状(3, 10),所有样本长度均为10
# 样本1(补齐后):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2(截断+补齐):[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3(补齐后):[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注:0 = [PAD],101=[CLS],102=[SEP]

二、推理时:padding=True(动态长度补齐)

1. 核心要求

推理(线上服务、预测)时,使用 padding=True(默认不指定 max_length),按「当前 Batch 内最长的文本长度」动态补齐,不固定统一长度。

2. 关键优势(核心重点)

  • 保证形状一致:满足 DataLoader 并行计算需求,避免报错。

  • 减少无意义计算:无需补齐到训练时的固定长(如10),只补到当前 Batch 最长值,减少大量 PAD 带来的无效计算。

  • 降低线上延迟:无效计算减少后,线上服务延迟通常可降低 50%~70%(核心优化点)。

3. 具体示例(对应训练示例,对比更直观)

推理时,同一个 Batch 内3条文本,动态取最长文本长度(假设最长为6),仅补齐到6,无需补到训练时的10。

python 复制代码
# 推理时代码(关键参数)
encoded = tokenizer(
    texts,
    padding=True,          # 动态补齐(按当前Batch最长)
    truncation=True,       # 超长截断
    # 不指定 max_length,自动适配当前Batch
    return_tensors="pt"
)

# 同一批推理文本(长度分别为6、5、3)
texts = [
    "我要投诉客服",           # 长度6(当前Batch最长)
    "今天天气好",             # 长度5(补齐到6)
    "你好"                   # 长度3(补齐到6)
]

# 最终 input_ids 形状(3, 6),仅补齐到当前Batch最长的6
# 样本1(无需补齐):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正:长度6(含CLS/SEP)
# 样本2(补齐后):[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正:[101, 791, 2824, 2824, 3698, 2207, 102](长度7?统一说明:含CLS/SEP后,最长为7则补到7)
# 简化理解:当前Batch最长文本(含CLS/SEP)为7,则所有样本补到7,无需补到训练时的10,减少3个[PAD]的无效计算

三、训练与推理 Padding 对比表(重点记忆)

对比维度 训练时 推理时
Padding 参数 padding="max_length" + 指定 max_length padding=True(不指定 max_length)
补齐长度 固定长度(所有 Batch 统一) 动态长度(按当前 Batch 最长文本)
核心目的 适配乱序后的数据并行,保证训练稳定 保证并行的同时,减少无效计算,降低延迟
优缺点 优点:稳定;缺点:存在无意义 Padding 计算 优点:高效、低延迟;缺点:长度随 Batch 波动(不影响推理)
适用场景 模型训练(数据乱序、批量更新) 线上推理、预测(追求效率和低延迟)

四、总结(极简好记)

  • 训练:固定长(padding="max_length")→ 稳,适配乱序并行。

  • 推理:动态长(padding=True)→ 快,砍半延迟,避免无效计算。

  • 核心差异:是否固定长度,本质是「训练求稳、推理求快」。

(注:文档部分内容可能由 AI 生成)

相关推荐
zhangfeng11333 小时前
天数智芯天垓 100 加密大模型分布式部署安全方案
人工智能·分布式·安全·transformer·gpu算力·芯片
明志数科3 小时前
机器人长尾场景数据采集:实操方法论与成本控制
大数据·人工智能
nnsix3 小时前
Unity HybirdCLR 简单了解 笔记
笔记
lifallen3 小时前
第六章 MCP:把能力接入协议化
人工智能·ai·语言模型·ai编程
code 小楊3 小时前
AI Agent记忆系统全解析:从基础到前沿
人工智能
niuniuyi~3 小时前
科研阶段记录2-下
人工智能·知识图谱
workflower3 小时前
医院核心竞争力的四大重构
人工智能·安全·设计模式·重构·动态规划·scrum
zhangfeng11333 小时前
车载gpu 飞地 只保存密钥 不保存 权重 Orin确实有TEE安全飞地(TSEC/OP-TEE)
服务器·网络·人工智能·安全·transformer·芯片
Drgfd3 小时前
长期主义者汪进进:能效电气重构充电桩行业价值逻辑
人工智能·重构
YOLO数据集集合3 小时前
配电站智能运维|变电一次设备识别|高压电气构件目标检测数据集|电力巡检
运维·人工智能·深度学习·yolo·目标检测·视觉检测