【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:

是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call

  • 源码分析

    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制

    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。

    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids

    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

相关推荐
楼田莉子22 分钟前
C++动态规划算法:斐波那契数列模型
c++·学习·算法·动态规划
江流月照38 分钟前
IP验证学习之agent编写
学习·硬件架构·硬件工程
岑梓铭1 小时前
《考研408数据结构》第一章复习笔记
数据结构·笔记·考研·408
0_0梅伊阁诗人1 小时前
Redis
开发语言·笔记·python
DisonTangor2 小时前
【阿里拥抱开源】Qwen团队开源新一代深度思考模型——Qwen3-Next-80B-A3B-Thinking
人工智能·学习·语言模型·开源·aigc
MuMuMu#2 小时前
Spring Cloud Gateway基础复习
java·运维·学习
晨非辰3 小时前
#C语言——刷题攻略:牛客编程入门训练(十二):攻克 循环控制(四)、循环输出图形(一),轻松拿捏!
c语言·开发语言·经验分享·笔记·其他·学习方法·visual studio
抓饼先生4 小时前
C++ 20 视图view笔记
linux·开发语言·c++·笔记·c++20
Olrookie4 小时前
ruoyi-vue(十四)——前端框架及package.json,vite.config.js, main.js文件介绍
前端·笔记
搜搜秀5 小时前
内存传输速率MT/s
人工智能·自然语言处理·机器翻译