训练与推理时 Tokenizer Padding 用法笔记

训练与推理时 Tokenizer Padding 用法笔记

核心原则:Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」,适配 DataLoader 并行计算;训练与推理的差异,本质是「是否需要固定长度」,直接影响效率和延迟。

一、训练时:padding="max_length"(固定长度补齐)

1. 核心要求

训练时数据会随机乱序(保证模型泛化性),必须使用 padding=\&\#34;max\_length\&\#34;,手动指定 max\_length,将所有样本统一补齐到该固定长度。

2. 关键原因

  • DataLoader 并行计算的前提:所有样本的 input\_ids 形状必须完全一致(如 [batch_size, max_length]),乱序后若长度不统一,会直接报错。

  • 固定长度可确保训练过程中,每个 Batch 的 Tensor 维度稳定,避免因样本长度波动导致训练中断。

3. 具体示例(结合之前的代码场景)

假设训练数据有3条文本,设置 max\_length=10,无论原始文本长度如何,均补齐到10。

python 复制代码
# 训练时代码(关键参数)
encoded = tokenizer(
    texts,
    padding="max_length",  # 固定长度补齐
    truncation=True,       # 超长截断
    max_length=10,         # 手动指定固定长度
    return_tensors="pt"
)

# 原始文本(长度分别为6、18、3)
texts = [
    "我要投诉客服",           # 长度6
    "今天天气真不错,但是下午突然下大雨了", # 长度18(超长截断)
    "你好"                   # 长度3(补齐到10)
]

# 最终 input_ids 形状(3, 10),所有样本长度均为10
# 样本1(补齐后):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2(截断+补齐):[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3(补齐后):[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注:0 = [PAD],101=[CLS],102=[SEP]

二、推理时:padding=True(动态长度补齐)

1. 核心要求

推理(线上服务、预测)时,使用 padding=True(默认不指定 max_length),按「当前 Batch 内最长的文本长度」动态补齐,不固定统一长度。

2. 关键优势(核心重点)

  • 保证形状一致:满足 DataLoader 并行计算需求,避免报错。

  • 减少无意义计算:无需补齐到训练时的固定长(如10),只补到当前 Batch 最长值,减少大量 [PAD] 带来的无效计算。

  • 降低线上延迟:无效计算减少后,线上服务延迟通常可降低 50%~70%(核心优化点)。

3. 具体示例(对应训练示例,对比更直观)

推理时,同一个 Batch 内3条文本,动态取最长文本长度(假设最长为6),仅补齐到6,无需补到训练时的10。

python 复制代码
# 推理时代码(关键参数)
encoded = tokenizer(
    texts,
    padding=True,          # 动态补齐(按当前Batch最长)
    truncation=True,       # 超长截断
    # 不指定 max_length,自动适配当前Batch
    return_tensors="pt"
)

# 同一批推理文本(长度分别为6、5、3)
texts = [
    "我要投诉客服",           # 长度6(当前Batch最长)
    "今天天气好",             # 长度5(补齐到6)
    "你好"                   # 长度3(补齐到6)
]

# 最终 input_ids 形状(3, 6),仅补齐到当前Batch最长的6
# 样本1(无需补齐):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正:长度6(含CLS/SEP)
# 样本2(补齐后):[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正:[101, 791, 2824, 2824, 3698, 2207, 102](长度7?统一说明:含CLS/SEP后,最长为7则补到7)
# 简化理解:当前Batch最长文本(含CLS/SEP)为7,则所有样本补到7,无需补到训练时的10,减少3个[PAD]的无效计算

三、训练与推理 Padding 对比表(重点记忆)

对比维度 训练时 推理时
Padding 参数 padding="max_length" + 指定 max_length padding=True(不指定 max_length)
补齐长度 固定长度(所有 Batch 统一) 动态长度(按当前 Batch 最长文本)
核心目的 适配乱序后的数据并行,保证训练稳定 保证并行的同时,减少无效计算,降低延迟
优缺点 优点:稳定;缺点:存在无意义 Padding 计算 优点:高效、低延迟;缺点:长度随 Batch 波动(不影响推理)
适用场景 模型训练(数据乱序、批量更新) 线上推理、预测(追求效率和低延迟)

四、总结(极简好记)

  • 训练:固定长(padding="max_length")→ 稳,适配乱序并行。

  • 推理:动态长(padding=True)→ 快,砍半延迟,避免无效计算。

  • 核心差异:是否固定长度,本质是「训练求稳、推理求快」。

(注:文档部分内容可能由 AI 生成)

相关推荐
BU摆烂会噶1 分钟前
【工作流的常见模式】LangGraph 常用模式:路由模式(条件分支)
数据库·人工智能·python·langchain
互联网推荐官2 分钟前
上海小程序开发的接口安全与数据通信设计:工程实践中的关键决策
大数据·人工智能·物联网·软件工程
7yewh4 分钟前
针对灵巧手机械结构的探究
网络·人工智能·单片机·深度学习·嵌入式
禹凕2 小时前
PyTorch——安装(有无 NVIDIA 显卡的完整配置方案)
人工智能·pytorch·python
U盘失踪了2 小时前
Playwright with sync_playwright() as p 上下文管理器
笔记
vx_biyesheji00013 小时前
计算机毕业设计:Python股价预测与可视化系统 Flask框架 数据分析 可视化 机器学习 随机森林 大数据(建议收藏)✅
python·机器学习·信息可视化·数据分析·flask·课程设计
大龄程序员狗哥8 小时前
第25篇:Q-Learning算法解析——强化学习中的经典“价值”学习(原理解析)
人工智能·学习·算法
陶陶然Yay8 小时前
神经网络常见层Numpy封装参考(5):其他层
人工智能·神经网络·numpy
极客老王说Agent8 小时前
2026实战指南:如何用智能体实现药品不良反应报告的自动录入?
人工智能·ai·chatgpt
imbackneverdie8 小时前
本科毕业论文怎么写?需要用到什么工具?
人工智能·考研·aigc·ai写作·学术·毕业论文·ai工具