【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:

是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call

  • 源码分析

    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制

    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。

    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids

    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

相关推荐
charlie1145141914 分钟前
IMX6ULL学习整理篇——Linux使用更现代的GPIO操作简单设备
linux·嵌入式硬件·学习·教程·mpu·gpio子系统·pinctl
齐尹秦38 分钟前
HTML 插件学习笔记
笔记
乌旭42 分钟前
量子纠错码实战:从Shor码到表面码
人工智能·深度学习·学习·机器学习·transformer·量子计算
昔柯的修炼日记1 小时前
Python3 学习笔记
笔记·学习
hjs_deeplearning1 小时前
论文写作篇#8:双栏的格式里怎么插入横跨两栏的图片和表格
人工智能·深度学习·学习·yolo·机器学习·论文写作·论文排版
cwtlw1 小时前
PhotoShop学习04
学习·ui·photoshop
黑不拉几的小白兔2 小时前
risc-V学习日记(3):编译与链接
学习·risc-v
誉鏐2 小时前
RNN模型与NLP应用——(8/9)Attention(注意力机制)
人工智能·rnn·自然语言处理
虾球xz2 小时前
游戏引擎学习第201天
前端·学习·游戏引擎
小王努力学编程2 小时前
【Rust学习】Rust数据类型,函数,条件语句,循环
学习