百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understandingC//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
hongyucai13 小时前
OPENPi模型源码AI解读
人工智能
果丁智能13 小时前
物联网智能锁赋能网约房与民宿:身份核验、远程授权的技术落地与成本优化方案
人工智能·物联网·智能家居
科技每日热闻13 小时前
618 AI显示器选购指南!爱攻AGON AI定制芯片电竞显示器AG277UX,适合哪些玩家?
人工智能·科技·游戏·计算机外设
初圣魔门首席弟子13 小时前
AI Agent 核心原理:工具调用(Function Calling)完整工作流程详解
前端·数据库·人工智能
MacroZheng13 小时前
横空出世!Claude Code画图神器来了,比Visio快10倍!
java·人工智能·后端
FII工业富联科技服务13 小时前
“可持续灯塔工厂”技术解密:AI+IoT如何落地端到端碳管理闭环
大数据·人工智能·物联网·ai·数据分析·自动化·制造
AniShort13 小时前
AniShort携3D世界+3D导演台王炸组合AI短剧协作平台亮相2026横店AI短剧大会 近亿元融资赋能短剧工业化
人工智能·microsoft·3d
大山佬13 小时前
ARM 汇编优化:NEON 指令与内存访问的实战技巧
人工智能
Bright166813 小时前
从零打造 Cursor 平替:基于 VS Code 二开的 AI 编程编辑器 CodexaX
人工智能·开源·编辑器
AI客栈13 小时前
AI大模型微服务网关架构下的动态限频与负载均衡设计:生产环境突发故障排查与优化
人工智能