百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understandingC//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
AcaDesign9 小时前
“万人计划”青年拔尖人才PPT模板 | WordinPPT
人工智能·powerpoint
周周爱喝粥呀9 小时前
4个AI 大模型排行榜的对比
人工智能·ai
昇腾CANN9 小时前
从一张查找表到 4GB/s:HiFloat8 Cast 算子的工程化之路
人工智能·开源·昇腾·cann
老H科研技术9 小时前
第 01 篇:MCP 概念与架构 —— AI 世界的“USB-C“
c语言·人工智能·chatgpt·架构·aigc·agi
衫水9 小时前
关于 AI 工程化 Harness 的一些笔记(2026/6/5)
人工智能·笔记
大模型最新论文速读9 小时前
06-05 · LLM 最新论文速览
论文阅读·人工智能·深度学习·机器学习·自然语言处理
闻道参看10 小时前
2026企业GEO选型指南:主流AI优化服务商对比
大数据·人工智能
FIT2CLOUD飞致云10 小时前
里程碑丨MaxKB开源企业级智能体平台v2.10 LTS版本发布
人工智能·ai·开源·智能体·maxkb
论迹10 小时前
【LangChain-AI】聊天模型--调用工具
人工智能·langchain
Elastic 中国社区官方博客10 小时前
13.7万人,零人工决策:使用 Elasticsearch 实现智能体驱动的灾害响应系统
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索