百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understandingC//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
EAIReport3 小时前
边缘计算EdgeAI:从云端下沉到终端的智能革命
人工智能·边缘计算
在繁华处3 小时前
Java从零到熟练(十二):Java与AI工具整合
java·人工智能·python
csdn小瓯3 小时前
告别 Value Model:深度解析 GRPO 与 PPO 的核心差异
人工智能
库拉大叔3 小时前
GPT-5.5办公落地全解析:四大场景实测+避坑指南+多模型策略
人工智能·gpt
2601_959986243 小时前
M4Markets:把信息透明度做到位——路径分析与提示整理
大数据·人工智能
YueJoy.AI3 小时前
敏捷需求优先级矩阵驱动迭代规划
人工智能·ai·语言模型
豆豆3 小时前
当GEO遇见CMS:企业网站管理系统如何适配AI大模型?
人工智能·cms·ai大模型·seo优化·geo优化·企业建站·企业网站管理系统
程序猿乐锅3 小时前
吴恩达Prompt提示词课有感
人工智能·prompt
倔强的石头1064 小时前
Dify 接入蓝耘 MaaS:从 0 搭建一个企业知识库问答助手
人工智能·dify·蓝耘
黄啊码4 小时前
【黄啊码】为什么你写好的 Skill,Agent 也许看不懂?
人工智能