百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
才兄说17 小时前
机器人租售出场稳?到点就上台
人工智能·机器人
小陈phd17 小时前
大语言模型实战(十八)——基于langchain1.0 构建传统 RAG Agent:从文档到知识库的完整之旅
人工智能·语言模型·自然语言处理
小哈里17 小时前
【计算】Ray框架介绍,AI基础设施之“通用”分布式计算(跨场景,门槛低,大规模生产,单机->集群->推理一站式)
人工智能·大模型·llm·分布式计算·ray
XmasWu122517 小时前
【嵌入式AI踩坑实录】海思Hi3519DV500/昇腾平台:YOLO级联RPN硬化导致“目标类别丢失”之谜
人工智能·yolo
数智前线17 小时前
百度智能云上调2026年目标:增速提至200%,AI云开打系统战
人工智能
逄逄不是胖胖18 小时前
《动手学深度学习》-56门控循环单元GRU
人工智能·深度学习·gru
轻览月18 小时前
【DL】循环神经网络
人工智能·rnn·深度学习
ZPC821018 小时前
ROS2 独占内核
人工智能·python·算法·机器人
说私域18 小时前
AI智能名片链动2+1模式小程序在消费者商家全链路互动中的应用研究
大数据·人工智能·小程序·流量运营·私域运营
千流出海18 小时前
谷歌和苹果应用商店发现数十款AI去衣应用
人工智能