T5模型: Transfer Text-to-Text Transformer(谷歌)

🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。

一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了一套建议参数。

作者测过包括encoder-decoder,decoder,prefix lm。 几种不同的结构主要是因为attention mask机制不一样,其中prefix lm可看作是encoder 和 decoder 的融合体,一部分如 encoder 一样能看到全体信息,一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制,如下配置效果最好,于是下面就是T5模型的配置了:

  • transformer的encoder-decoder结构
  • BERT-style 式的mask方法;
  • Replace Span 的mask策略(即对连续的一小段maks,统一替换成一个mask token);
  • 15 %的 mask比例;
  • 长度为3的mask时小段长度。


Reference

1 Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformerJ. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

相关推荐
渔阳节度使1 分钟前
SpringAi 1.1更新
人工智能·ai编程
测试_AI_一辰2 分钟前
AI测试工程师的统计学课:如何构建“反脆弱“的评估体系
人工智能·深度学习·机器学习·ai·ai编程
KaMeidebaby3 分钟前
卡梅德生物技术快报|基因测序技术在 46,XY 性发育障碍变异筛查中的流程与数据分析
服务器·前端·数据库·人工智能·算法·数据挖掘·数据分析
xier_ran7 分钟前
【infra之路】阶段二 · 模块二:CUDA 编程入门(下)— 矩阵乘法、tiling 优化与测量陷阱
人工智能·线性代数·矩阵
一拳一个娘娘腔8 分钟前
【SRC漏洞挖掘系列】第15期:自动化与AI赋能 —— 打造你的专属“漏洞挖掘机”
运维·人工智能·自动化
zhangfeng11338 分钟前
国家超算中心 系统自带模型 和pytorch 和cuda版本
人工智能·pytorch·python
小p8 分钟前
claude code 工程化学习2: 认识技能系统 Skill
人工智能
wgc2k9 分钟前
Nest.js基础-6:关于Claude Code
人工智能·docker·node.js
Resistance丶未来10 分钟前
魔芋 AI 企业级大模型落地实战指南
人工智能·api·claude·gemini·deepseek·魔芋ai·魔芋api
AI周红伟11 分钟前
长鑫科技存储之王:存储三强对比:三星、SK海力士 vs 长鑫科技
数据库·人工智能·科技·react.js·架构·langchain