百度ERNIE系列预训练语言模型浅析(2)-ERNIE2.0

Ernie 2.0: A Continual Pre-Training Framework for Language Understanding

Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI * Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

关键词:Continual Multi-task Learning

概括:加入更多的预训练任务,为了有效的训练采用了连续训练的方法。

以前的模型只能学到简单的共现信息,其他有价值的信息,比如lexical\syntactic\semantic information都没有被提取出来。

因此本文Continual Multi-task Learning、不同层次的预训练任务能够提取lexical\syntactic\semantic information。

1、Continual Multi-task Learning

连续的多任务学习能记住之前学习到的信息。

上游的预训练任务和下游特定任务的Fine-tuning的闭环。

2、Pre-training Tasks

三个层次的预训练任务:

(1)Word-aware task: capture the lexical information

(2)Structure-aware task: capture the syntactic information

(3)Semantic-aware task: semantic information

2.1、Word-aware

  • Knowledge Masking:同ERNIE 1.0的实体/短语 masking
  • Capitalization Prediction:token大小写预测的任务
  • Token-Document Relation Prediction:预测句子中的词是否出现在了segment原始文档中,约等于预测token是否为关键词

2.2、Structure-aware

  • Sentence Reordering(语序关系):打乱k个句子,预测原始顺序(给每个句子做k分类)
  • Sentence Distance(语义距离):3分类任务,预测两个句子是相连、出现在同一个文档还是在不同文档

2.3、Semantic-aware

  • Discourse Relation:判断句子的语义关系,例如logical relationship (is a, has a, contract)
  • IR Relevance Task:
相关推荐
是娇娇公主~9 小时前
AI Agent详解
人工智能·ai agent
CV-杨帆9 小时前
RAG 与记忆机制本质辨析及研究路径评估
人工智能
AI医影跨模态组学9 小时前
如何通过MRI识别的系膜筋膜侵犯类型关联局部晚期直肠癌的免疫微环境及肿瘤增殖活性,并进一步解释其与预后不良的机制联系
人工智能·论文·医学·医学影像
人机与认知实验室9 小时前
如何用四维矩阵建模计算性的态势感知与算计性的势态知感?
人工智能·线性代数·矩阵
石榴树下的七彩鱼9 小时前
OCR 识别不准确怎么办?模糊 / 倾斜 / 反光图片优化实战(附完整解决方案 + 代码示例)
图像处理·人工智能·后端·ocr·api·文字识别·图片识别
菱玖9 小时前
Transformer 架构详解
人工智能·深度学习·transformer
liangdabiao9 小时前
开源AI拼豆大升级 - 一键部署cloudflare page - 全免费 web和小程序
前端·人工智能·小程序
SimpleLearingAI9 小时前
RMSNorm:大模型的隐秘功臣?
人工智能·深度学习
burning_maple10 小时前
AI 工程实战指南:从零开始构建 AI 应用
开发语言·人工智能
桃小桃说科技10 小时前
基于深度学习的障碍物检测系统(YOLOv12完整代码+论文示例+多算法对比)
人工智能·python·目标检测·机器视觉·障碍物检测