T5 完整全称
Text-to-Text Transfer Transformer
中文直译:文本到文本迁移Transformer模型
简短拆解含义
- Text-to-Text(文本转文本)
所有NLP任务统一范式:不管翻译、摘要、问答、分类,输入一段文本、输出一段文本,靠任务前缀区分任务(比如summarize:、translate English to Chinese:)。 - Transfer(迁移学习)
先在海量C4语料预训练,再小数据微调适配下游业务。 - Transformer
标准Encoder-Decoder双端架构(区别于BERT仅编码器、GPT仅解码器)。
补充关键细节
- 2019年Google Research发布,论文标题:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- 没有
token_type_ids输入参数(和BERT不一样);依靠前缀指令区分任务,位置编码用相对位置偏置而非绝对position_ids - 衍生变体:mT5(多语言)、Flan-T5(指令微调增强)、CodeT5(代码专用)