T5模型: Transfer Text-to-Text Transformer(谷歌)

🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。

一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了一套建议参数。

作者测过包括encoder-decoder,decoder,prefix lm。 几种不同的结构主要是因为attention mask机制不一样,其中prefix lm可看作是encoder 和 decoder 的融合体,一部分如 encoder 一样能看到全体信息,一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制,如下配置效果最好,于是下面就是T5模型的配置了:

  • transformer的encoder-decoder结构
  • BERT-style 式的mask方法;
  • Replace Span 的mask策略(即对连续的一小段maks,统一替换成一个mask token);
  • 15 %的 mask比例;
  • 长度为3的mask时小段长度。

Reference

1\] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer\[J\]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

相关推荐
禁默33 分钟前
机器学习的发展与应用:从理论到现实
人工智能·机器学习
WeiJingYu.1 小时前
O3.1 opencv高阶
人工智能·opencv·计算机视觉
研梦非凡1 小时前
ICCV 2025|基于曲线感知高斯溅射的3D参数曲线重建
人工智能·算法·3d
Hello123网站1 小时前
探迹SalesGPT
人工智能·ai工具
摘星星的屋顶1 小时前
论文阅读记录之《VelocityGPT 》
论文阅读·人工智能·深度学习·学习
格林威1 小时前
工业相机如何通过光度立体成像技术实现高效精准的2.5D缺陷检测
人工智能·深度学习·数码相机·yolo·计算机视觉
MarkHD2 小时前
大语言模型入门指南:从原理到实践应用
人工智能·语言模型·自然语言处理
A尘埃2 小时前
NLP(自然语言处理, Natural Language Processing)
人工智能·自然语言处理·nlp
dlraba8022 小时前
机器学习实战(二):Pandas 特征工程与模型协同进阶
人工智能·机器学习·pandas
一碗白开水一2 小时前
【第19话:定位建图】SLAM点云配准之3D-3D ICP(Iterative Closest Point)方法详解
人工智能·算法