百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
独自归家的兔几秒前
基于 cosyvoice-v3-plus 的 个人音色复刻 (华为OBS)
人工智能·华为·语音识别
Legend NO241 分钟前
如何构建自己高质量语料库?
人工智能·非结构化数据
Hcoco_me6 分钟前
大模型面试题23:对比学习原理-从通俗理解到核心逻辑(通用AI视角)
人工智能·rnn·深度学习·学习·自然语言处理·word2vec
Java后端的Ai之路6 分钟前
【神经网络基础】-神经网络优化方法全解析
人工智能·深度学习·神经网络·机器学习
高洁018 分钟前
深度学习—卷积神经网络(2)
人工智能·深度学习·机器学习·transformer·知识图谱
一招定胜负9 分钟前
项目案例:卷积神经网络实现食物图片分类代码详细解析
人工智能·分类·cnn
景联文科技10 分钟前
景联文 × 麦迪:归一医疗数据枢纽,构建AI医疗新底座
大数据·人工智能·数据标注
wyg_03111313 分钟前
机器问道:大模型RAG 解读凡人修仙传
人工智能·python·transformer
未来之窗软件服务13 分钟前
幽冥大陆(七十九)Python 水果识别训练视频识别 —东方仙盟练气期
开发语言·人工智能·python·水果识别·仙盟创梦ide·东方仙盟
光影少年31 分钟前
AI前端开发需要会哪些及未来发展?
前端·人工智能·前端框架