论文阅读——BART

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

Token Masking:和BERT一样

Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation:文章句子打乱顺序

Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

各下游任务微调

二、Loss:交叉熵

相关推荐
luoganttcc8 小时前
PyTorch 中nn.Embedding
pytorch·深度学习·embedding
九章云极AladdinEdu8 小时前
绿色算力技术栈:AI集群功耗建模与动态调频系统
人工智能·pytorch·深度学习·unity·游戏引擎·transformer·gpu算力
盼小辉丶8 小时前
Transformer实战(17)——微调Transformer语言模型进行多标签文本分类
深度学习·分类·transformer
Dfreedom.9 小时前
在Windows上搭建GPU版本PyTorch运行环境的详细步骤
c++·人工智能·pytorch·python·深度学习
confiself9 小时前
AndroidWorld+mobileRL
人工智能·深度学习
程序员奈斯10 小时前
Python深度学习:NumPy数组库
python·深度学习·numpy
CoovallyAIHub10 小时前
CostFilter-AD:用“匹配代价过滤”刷新工业质检异常检测新高度! (附论文和源码)
深度学习·算法·计算机视觉
CoovallyAIHub10 小时前
CVPR 2025 | 频率动态卷积(FDConv):以固定参数预算实现频率域自适应,显著提升视觉任务性能
深度学习·算法·计算机视觉
胡乱编胡乱赢11 小时前
在pycharm终端安装torch
ide·深度学习·pycharm·安装torch
FairyGirlhub13 小时前
神经网络的初始化:权重与偏置的数学策略
人工智能·深度学习·神经网络