论文阅读——BART

じんじん2023-10-27 20:01

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段：任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input：被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型，encoder 6层，decoder 12层

其他细节：激活函数把ReLU换成GeLUs

1、预训练：

允许输入任意类型噪声破坏的文本，极端情况下，如果任意信息都丢失，BART等同于语言模型。

Token Masking：和BERT一样

Token Deletion：随机抽取到的token删除（Token Masking是抽取到的token用mask代替，这个是随机抽取到的token删除），模型可以学习到什么位置的token丢失了

Text Infilling：对多个文本跨度进行采样，跨度长度取自泊松分布，可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation：文章句子打乱顺序

Document Rotation：文章中随机找到一个token，将文章翻转，以该token作为文章的开头

2、微调：

各下游任务微调

二、Loss：交叉熵