T5模型: Transfer Text-to-Text Transformer（谷歌）

#苦行僧2023-07-20 14:02

🔥 T5由谷歌发表于2019，《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》，最终版本发布在：JMLR。

一句话总结T5: 大一统模型，seq2seq形式完成各类nlp任务，大数据集预训练，大量实验，财大气粗，诚意满满，给nlp预训练模型领域提供了一个通用框架，提供了一套建议参数。

作者测过包括encoder-decoder，decoder，prefix lm。 几种不同的结构主要是因为attention mask机制不一样，其中prefix lm可看作是encoder 和 decoder 的融合体，一部分如 encoder 一样能看到全体信息，一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制，如下配置效果最好，于是下面就是T5模型的配置了：

transformer的encoder-decoder结构
BERT-style 式的mask方法；
Replace Span 的mask策略（即对连续的一小段maks，统一替换成一个mask token）；
15 %的 mask比例；
长度为3的mask时小段长度。

Reference

1\] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer\[J\]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.