【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:

是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call

  • 源码分析

    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制

    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。

    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids

    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

相关推荐
凌辰揽月1 分钟前
AJAX 学习
java·前端·javascript·学习·ajax·okhttp
一缕猫毛1 分钟前
【学习笔记】Linux命令
笔记·学习
_jacobfu33 分钟前
Foundry 学习笔记 005
笔记·学习·web3·区块链·智能合约
大模型最新论文速读33 分钟前
模拟注意力:少量参数放大 Attention 表征能力
人工智能·深度学习·机器学习·语言模型·自然语言处理
永日4567034 分钟前
学习日记-spring-day45-7.10
java·学习·spring
迅~39 分钟前
如何快速学习GO语言
学习
Eumenidus1 小时前
使用ESM3蛋白质语言模型进行快速大规模结构预测
人工智能·语言模型·自然语言处理
熊猫钓鱼>_>1 小时前
FastGPT革命:下一代语言模型的极速进化
人工智能·语言模型·自然语言处理
HXR_plume2 小时前
【计算机网络】王道考研笔记整理(2)物理层
笔记·计算机网络·考研
快乐点吧3 小时前
【前端】异步任务风控验证与轮询机制技术方案(通用笔记版)
前端·笔记