训练与推理时 Tokenizer Padding 用法笔记

训练与推理时 Tokenizer Padding 用法笔记

核心原则:Padding 的核心目的是「保证一个 Batch 内所有样本形状一致」,适配 DataLoader 并行计算;训练与推理的差异,本质是「是否需要固定长度」,直接影响效率和延迟。

一、训练时:padding="max_length"(固定长度补齐)

1. 核心要求

训练时数据会随机乱序(保证模型泛化性),必须使用 padding=\&\#34;max\_length\&\#34;,手动指定 max\_length,将所有样本统一补齐到该固定长度。

2. 关键原因

  • DataLoader 并行计算的前提:所有样本的 input\_ids 形状必须完全一致(如 [batch_size, max_length]),乱序后若长度不统一,会直接报错。

  • 固定长度可确保训练过程中,每个 Batch 的 Tensor 维度稳定,避免因样本长度波动导致训练中断。

3. 具体示例(结合之前的代码场景)

假设训练数据有3条文本,设置 max\_length=10,无论原始文本长度如何,均补齐到10。

python 复制代码
# 训练时代码(关键参数)
encoded = tokenizer(
    texts,
    padding="max_length",  # 固定长度补齐
    truncation=True,       # 超长截断
    max_length=10,         # 手动指定固定长度
    return_tensors="pt"
)

# 原始文本(长度分别为6、18、3)
texts = [
    "我要投诉客服",           # 长度6
    "今天天气真不错,但是下午突然下大雨了", # 长度18(超长截断)
    "你好"                   # 长度3(补齐到10)
]

# 最终 input_ids 形状(3, 10),所有样本长度均为10
# 样本1(补齐后):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102, 0, 0]
# 样本2(截断+补齐):[101, 791, 2824, 2824, 3698, 2207, 6991, 8024, 102, 0]
# 样本3(补齐后):[101, 872, 1962, 102, 0, 0, 0, 0, 0, 0]
# 注:0 = [PAD],101=[CLS],102=[SEP]

二、推理时:padding=True(动态长度补齐)

1. 核心要求

推理(线上服务、预测)时,使用 padding=True(默认不指定 max_length),按「当前 Batch 内最长的文本长度」动态补齐,不固定统一长度。

2. 关键优势(核心重点)

  • 保证形状一致:满足 DataLoader 并行计算需求,避免报错。

  • 减少无意义计算:无需补齐到训练时的固定长(如10),只补到当前 Batch 最长值,减少大量 [PAD] 带来的无效计算。

  • 降低线上延迟:无效计算减少后,线上服务延迟通常可降低 50%~70%(核心优化点)。

3. 具体示例(对应训练示例,对比更直观)

推理时,同一个 Batch 内3条文本,动态取最长文本长度(假设最长为6),仅补齐到6,无需补到训练时的10。

python 复制代码
# 推理时代码(关键参数)
encoded = tokenizer(
    texts,
    padding=True,          # 动态补齐(按当前Batch最长)
    truncation=True,       # 超长截断
    # 不指定 max_length,自动适配当前Batch
    return_tensors="pt"
)

# 同一批推理文本(长度分别为6、5、3)
texts = [
    "我要投诉客服",           # 长度6(当前Batch最长)
    "今天天气好",             # 长度5(补齐到6)
    "你好"                   # 长度3(补齐到6)
]

# 最终 input_ids 形状(3, 6),仅补齐到当前Batch最长的6
# 样本1(无需补齐):[101, 2769, 3429, 2006, 6370, 2145, 3221, 102] → 修正:长度6(含CLS/SEP)
# 样本2(补齐后):[101, 791, 2824, 2824, 3698, 2207, 102, 0] → 修正:[101, 791, 2824, 2824, 3698, 2207, 102](长度7?统一说明:含CLS/SEP后,最长为7则补到7)
# 简化理解:当前Batch最长文本(含CLS/SEP)为7,则所有样本补到7,无需补到训练时的10,减少3个[PAD]的无效计算

三、训练与推理 Padding 对比表(重点记忆)

对比维度 训练时 推理时
Padding 参数 padding="max_length" + 指定 max_length padding=True(不指定 max_length)
补齐长度 固定长度(所有 Batch 统一) 动态长度(按当前 Batch 最长文本)
核心目的 适配乱序后的数据并行,保证训练稳定 保证并行的同时,减少无效计算,降低延迟
优缺点 优点:稳定;缺点:存在无意义 Padding 计算 优点:高效、低延迟;缺点:长度随 Batch 波动(不影响推理)
适用场景 模型训练(数据乱序、批量更新) 线上推理、预测(追求效率和低延迟)

四、总结(极简好记)

  • 训练:固定长(padding="max_length")→ 稳,适配乱序并行。

  • 推理:动态长(padding=True)→ 快,砍半延迟,避免无效计算。

  • 核心差异:是否固定长度,本质是「训练求稳、推理求快」。

(注:文档部分内容可能由 AI 生成)

相关推荐
北京耐用通信1 小时前
架桥记:耐达讯自动化CC-Link IE转EtherCAT的工业协议融合实战
人工智能·科技·物联网·网络协议·自动化
黎阳之光2 小时前
数智技术如何赋能空天地一体化,领跑低空经济新赛道
大数据·人工智能·算法·安全·数字孪生
cd_949217212 小时前
商业航天步入“快车道”,星思半导体迎来广阔发展前景
人工智能
音元系统2 小时前
按韵基分类的韵母分类法与汉语拼音方案关系说明
人工智能·分类·数据挖掘·语音识别·语音合成·语音分析·语音系统
Chengbei112 小时前
利用 LibreNMS snmpget 配置篡改实现 RCE 的完整攻击链
人工智能·web安全·网络安全·小程序·系统安全
俊哥V2 小时前
每日 AI 研究简报 · 2026-04-03
人工智能·ai
FreeBuf_2 小时前
以数据为中心的安全成为AI部署关键层——企业亟需构建可信数据平台
人工智能·安全
NYFEA2 小时前
NYFEA徕飞小尺寸法拉电容,高性能国产替代新选择
大数据·人工智能
紧固视界2 小时前
2026上海紧固件专业展6月24-26日国家会展中心(上海)举办
人工智能·上海紧固件展·紧固件展·上海紧固件专业展