T5模型: Transfer Text-to-Text Transformer(谷歌)

🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。

一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了一套建议参数。

作者测过包括encoder-decoder,decoder,prefix lm。 几种不同的结构主要是因为attention mask机制不一样,其中prefix lm可看作是encoder 和 decoder 的融合体,一部分如 encoder 一样能看到全体信息,一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制,如下配置效果最好,于是下面就是T5模型的配置了:

  • transformer的encoder-decoder结构
  • BERT-style 式的mask方法;
  • Replace Span 的mask策略(即对连续的一小段maks,统一替换成一个mask token);
  • 15 %的 mask比例;
  • 长度为3的mask时小段长度。

Reference

1\] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer\[J\]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

相关推荐
AEIC学术交流中心17 小时前
【快速EI检索 | SPIE出版】第六届中国膜计算论坛暨2026年人工智能、大数据与电气自动化国际学术会议(CWMC&AIBDE 2026)
大数据·人工智能·量子计算
永霖光电_UVLED17 小时前
2 μm 波段 PCSEL 激光振荡实现
人工智能
2501_9481142417 小时前
技术解码:Gemini交互式模拟API与高负载网关的选型逻辑
人工智能·python·ai
landuochong20017 小时前
claude-obsidian 再升级
人工智能·笔记·claudecode
HySpark17 小时前
AI会议离线转记 三大核心问题实战解决:语音重叠+异常样本+伪说话人
人工智能
克里斯蒂亚诺·罗纳尔达17 小时前
智能体学习16——学习与适应(Learning-and-Adaptation)-深入解读
深度学习·学习·机器学习
小蒋聊技术17 小时前
电商系列第五课:支付中心——资金安全、幂等设计与 AI 风控大脑
人工智能·安全
AC赳赳老秦17 小时前
OpenClaw text-translate技能:多语言批量翻译,解决跨境工作沟通难题
大数据·运维·数据库·人工智能·python·deepseek·openclaw
SuAluvfy17 小时前
2026年大模型免费版体验评测:从“无限供给”到“精细配额”的转折点
人工智能·agent