训练与推理时 Tokenizer Padding 用法笔记

训练与推理时 Tokenizer Padding 用法笔记

核心原则:Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」,适配 DataLoader 并行计算;训练与推理的差异,本质是「是否需要固定长度」,直接影响效率和延迟。

一、训练时:padding="max_length"(固定长度补齐)

1. 核心要求

训练时数据会随机乱序(保证模型泛化性),必须使用 padding=\&\#34;max\_length\&\#34;,手动指定 max\_length,将所有样本统一补齐到该固定长度。

2. 关键原因

  • DataLoader 并行计算的前提:所有样本的 input\_ids 形状必须完全一致(如 [batch_size, max_length]),乱序后若长度不统一,会直接报错。

  • 固定长度可确保训练过程中,每个 Batch 的 Tensor 维度稳定,避免因样本长度波动导致训练中断。

3. 具体示例(结合之前的代码场景)

假设训练数据有3条文本,设置 max\_length=10,无论原始文本长度如何,均补齐到10。

python 复制代码
# 训练时代码(关键参数)
encoded = tokenizer(
    texts,
    padding="max_length",  # 固定长度补齐
    truncation=True,       # 超长截断
    max_length=10,         # 手动指定固定长度
    return_tensors="pt"
)

# 原始文本(长度分别为6、18、3)
texts = [
    "我要投诉客服",           # 长度6
    "今天天气真不错,但是下午突然下大雨了", # 长度18(超长截断)
    "你好"                   # 长度3(补齐到10)
]

# 最终 input_ids 形状(3, 10),所有样本长度均为10
# 样本1(补齐后):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2(截断+补齐):[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3(补齐后):[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注:0 = [PAD],101=[CLS],102=[SEP]

二、推理时:padding=True(动态长度补齐)

1. 核心要求

推理(线上服务、预测)时,使用 padding=True(默认不指定 max_length),按「当前 Batch 内最长的文本长度」动态补齐,不固定统一长度。

2. 关键优势(核心重点)

  • 保证形状一致:满足 DataLoader 并行计算需求,避免报错。

  • 减少无意义计算:无需补齐到训练时的固定长(如10),只补到当前 Batch 最长值,减少大量 [PAD] 带来的无效计算。

  • 降低线上延迟:无效计算减少后,线上服务延迟通常可降低 50%~70%(核心优化点)。

3. 具体示例(对应训练示例,对比更直观)

推理时,同一个 Batch 内3条文本,动态取最长文本长度(假设最长为6),仅补齐到6,无需补到训练时的10。

python 复制代码
# 推理时代码(关键参数)
encoded = tokenizer(
    texts,
    padding=True,          # 动态补齐(按当前Batch最长)
    truncation=True,       # 超长截断
    # 不指定 max_length,自动适配当前Batch
    return_tensors="pt"
)

# 同一批推理文本(长度分别为6、5、3)
texts = [
    "我要投诉客服",           # 长度6(当前Batch最长)
    "今天天气好",             # 长度5(补齐到6)
    "你好"                   # 长度3(补齐到6)
]

# 最终 input_ids 形状(3, 6),仅补齐到当前Batch最长的6
# 样本1(无需补齐):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正:长度6(含CLS/SEP)
# 样本2(补齐后):[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正:[101, 791, 2824, 2824, 3698, 2207, 102](长度7?统一说明:含CLS/SEP后,最长为7则补到7)
# 简化理解:当前Batch最长文本(含CLS/SEP)为7,则所有样本补到7,无需补到训练时的10,减少3个[PAD]的无效计算

三、训练与推理 Padding 对比表(重点记忆)

对比维度 训练时 推理时
Padding 参数 padding="max_length" + 指定 max_length padding=True(不指定 max_length)
补齐长度 固定长度(所有 Batch 统一) 动态长度(按当前 Batch 最长文本)
核心目的 适配乱序后的数据并行,保证训练稳定 保证并行的同时,减少无效计算,降低延迟
优缺点 优点:稳定;缺点:存在无意义 Padding 计算 优点:高效、低延迟;缺点:长度随 Batch 波动(不影响推理)
适用场景 模型训练(数据乱序、批量更新) 线上推理、预测(追求效率和低延迟)

四、总结(极简好记)

  • 训练:固定长(padding="max_length")→ 稳,适配乱序并行。

  • 推理:动态长(padding=True)→ 快,砍半延迟,避免无效计算。

  • 核心差异:是否固定长度,本质是「训练求稳、推理求快」。

(注:文档部分内容可能由 AI 生成)

相关推荐
曦月逸霜20 小时前
啥是RAG 它能干什么?
人工智能·python·机器学习
AI医影跨模态组学20 小时前
Lancet Digit Health(IF=24.1)广东省人民医院刘再毅&南方医科大学南方医院梁莉等团队:基于可解释深度学习模型预测胶质瘤分子改变
人工智能·深度学习·论文·医学·医学影像·影像组学
应用市场20 小时前
AI 编程助手三强争霸(2026 版):Claude、Gemini、GPT 各自擅长什么?
人工智能·gpt
CSND74020 小时前
YOLO resume断点续训(不能用官方的权重,是自己训练一半生成的last.pt)
深度学习·yolo·机器学习
AC赳赳老秦20 小时前
供应链专员提效:OpenClaw自动跟踪物流信息、更新库存数据,异常自动提醒
java·大数据·服务器·数据库·人工智能·自动化·openclaw
脑极体20 小时前
从Token消耗到DAA增长,AI价值标尺正在重构
人工智能·重构
csdn小瓯20 小时前
LangGraph自适应工作流路由机制:从关键词匹配到智能决策的完整实现
人工智能·fastapi·langgraph
QYR-分析21 小时前
高功率飞秒激光器行业发展现状、市场机遇及未来趋势分析
大数据·人工智能
智者知已应修善业21 小时前
【51单片机89C51及74LS273、74LS244组成】2022-5-28
c++·经验分享·笔记·算法·51单片机
奋斗的小乌龟21 小时前
langchain4j笔记-06
笔记