T5模型: Transfer Text-to-Text Transformer(谷歌)

🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。

一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了一套建议参数。

作者测过包括encoder-decoder,decoder,prefix lm。 几种不同的结构主要是因为attention mask机制不一样,其中prefix lm可看作是encoder 和 decoder 的融合体,一部分如 encoder 一样能看到全体信息,一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制,如下配置效果最好,于是下面就是T5模型的配置了:

  • transformer的encoder-decoder结构
  • BERT-style 式的mask方法;
  • Replace Span 的mask策略(即对连续的一小段maks,统一替换成一个mask token);
  • 15 %的 mask比例;
  • 长度为3的mask时小段长度。

Reference

1\] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer\[J\]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

相关推荐
kadog12 分钟前
PubMed PDF下载 cloudpmc-viewer-pow逆向
前端·javascript·人工智能·爬虫·pdf
亿坊电商31 分钟前
AI数字人多模态技术如何提升用户体验?
人工智能·ux·ai数字人
不吃香菜?1 小时前
PyTorch 实现食物图像分类实战:从数据处理到模型训练
人工智能·深度学习
Jackilina_Stone1 小时前
【论文阅读】平滑量化:对大型语言模型进行准确高效的训练后量化
人工智能·llm·量化·论文阅读笔记
-曾牛1 小时前
企业级AI开发利器:Spring AI框架深度解析与实战
java·人工智能·python·spring·ai·rag·大模型应用
TMT星球2 小时前
商汤绝影生成式AI汽车新品亮相上海车展,引领AI汽车创新潮流
人工智能·汽车
Light602 小时前
智启未来:深度解析Python Transformers库及其应用场景
开发语言·python·深度学习·自然语言处理·预训练模型·transformers库 |·|应用场景
爱的叹息2 小时前
DeepSeek 大模型 + LlamaIndex + MySQL 数据库 + 知识文档 实现简单 RAG 系统
数据库·人工智能·mysql·langchain
数据智能老司机2 小时前
构建具备自主性的人工智能系统——在生成式人工智能系统中构建信任
深度学习·llm·aigc
PeterOne2 小时前
Trae MCP + Obsidian 集成如何缓解开发者的时间损耗
人工智能·trae