【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:

是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call

  • 源码分析

    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制

    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。

    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids

    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

相关推荐
hmbbcsm2 小时前
关于transformors库的学习笔记
笔记·学习
xqqxqxxq2 小时前
Java AI智能P图工具技术笔记
java·人工智能·笔记
FakeOccupational2 小时前
【电路笔记 PCB】Altium Designer : AD20信号完整性(Signal Integrity)分析+单线路传输分析+串扰分析(暂记)
笔记
minglie13 小时前
qemu相关脚本
学习
闪闪发亮的小星星4 小时前
链路预算相关
笔记
霍霍的袁4 小时前
【初识C语言】预处理笔记(预处理指令、宏定义等)
c语言·笔记·visualstudio
@小博的博客4 小时前
CSDN年度技术趋势预测的技术
学习
可可西里_X_back5 小时前
Linux学习(二)- 驱动开发步骤
linux·驱动开发·学习
dr_yingli5 小时前
慢性肾脏病评估与管理临床实践指南 KDIGO 2024 CKD 诊断指标速查手册
笔记
GISer_Jing6 小时前
测绘与GIS考试高频考点选择题精选
学习·arcgis