论文阅读——BART

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

Token Masking:和BERT一样

Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation:文章句子打乱顺序

Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

各下游任务微调

二、Loss:交叉熵

相关推荐
apocalypsx40 分钟前
深度学习-卷积神经网络基础
人工智能·深度学习·cnn
Rock_yzh2 小时前
AI学习日记——PyTorch深度学习快速入门:神经网络构建与训练实战
人工智能·pytorch·python·深度学习·神经网络·学习
AI 嗯啦3 小时前
深度学习——Python 爬虫原理与实战:从入门到项目实践
爬虫·python·深度学习
一条星星鱼3 小时前
从0到1:如何用统计学“看透”不同睡眠PSG数据集的差异(域偏差分析实战)
人工智能·深度学习·算法·概率论·归一化·睡眠psg
香菜烤面包3 小时前
Attention:MHA->MQA->GQA->MLA
人工智能·深度学习
nju_spy3 小时前
牛客网 AI题(一)机器学习 + 深度学习
人工智能·深度学习·机器学习·lstm·笔试·损失函数·自注意力机制
岁月的眸4 小时前
【循环神经网络基础】
人工智能·rnn·深度学习
无风听海5 小时前
神经网络之单词的语义表示
人工智能·深度学习·神经网络
墨利昂6 小时前
机器学习和深度学习模型训练流程
人工智能·深度学习·机器学习
麦麦大数据7 小时前
F031 Vue+Flask深度学习+机器学习多功能识别系统
vue.js·深度学习·flask