T5模型: Transfer Text-to-Text Transformer(谷歌)

🔥 T5由谷歌发表于2019,《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》,最终版本发布在:JMLR。

一句话总结T5: 大一统模型,seq2seq形式完成各类nlp任务,大数据集预训练,大量实验,财大气粗,诚意满满,给nlp预训练模型领域提供了一个通用框架,提供了一套建议参数。

作者测过包括encoder-decoder,decoder,prefix lm。 几种不同的结构主要是因为attention mask机制不一样,其中prefix lm可看作是encoder 和 decoder 的融合体,一部分如 encoder 一样能看到全体信息,一部分如 decoder 一样只能看到过去信息。最近开源的 UniLM, ChatGLM_v1便是此结构。

作者还测了不同的预训练机制,如下配置效果最好,于是下面就是T5模型的配置了:

  • transformer的encoder-decoder结构
  • BERT-style 式的mask方法;
  • Replace Span 的mask策略(即对连续的一小段maks,统一替换成一个mask token);
  • 15 %的 mask比例;
  • 长度为3的mask时小段长度。

Reference

1\] Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer\[J\]. The Journal of Machine Learning Research, 2020, 21(1): 5485-5551.

相关推荐
格砸44 分钟前
从入门到辞职|从ChatGPT到OpenClaw,跟上智能时代的进化
前端·人工智能·后端
可观测性用观测云1 小时前
可观测性 4.0:教系统如何思考
人工智能
sunny8651 小时前
Claude Code 跨会话上下文恢复:从 8 次纠正到 0 次的工程实践
人工智能·开源·github
小笼包包仔1 小时前
OpenClaw 多Agent软件开发最佳实践指南
人工智能
smallyoung2 小时前
AgenticRAG:智能体驱动的检索增强生成
人工智能
_skyming_2 小时前
OpenCode 如何做到结果不做自动质量评估,为什么结果还不错?
人工智能
南山安2 小时前
手写 Cursor 核心原理:从 Node.js 进程到智能 Agent
人工智能·agent·设计
掘金安东尼2 小时前
如何为 AI 编码代理配置 Next.js 项目
人工智能
aircrushin3 小时前
轻量化大模型架构演进
人工智能·架构
文心快码BaiduComate4 小时前
百度云与光本位签署战略合作:用AI Agent 重构芯片研发流程
前端·人工智能·架构