论文阅读——BART

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

Token Masking:和BERT一样

Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation:文章句子打乱顺序

Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

各下游任务微调

二、Loss:交叉熵

相关推荐
热心不起来的市民小周2 小时前
True or False? 基于 BERT 学生数学问题误解检测
深度学习·nlp·bert
Blossom.1183 小时前
基于深度学习的医学图像分析:使用DeepLabv3+实现医学图像分割
人工智能·python·深度学习·yolo·目标检测·机器学习·迁移学习
云之渺5 小时前
英语文章翻译加重点单词和短语一
深度学习
格林威6 小时前
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现各种食物的类型检测识别(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·计算机视觉
旧时光巷6 小时前
【深度学习②】| DNN篇
人工智能·pytorch·深度学习·dnn·模型训练·手写数字识别·深度神经网络
木卯_THU7 小时前
TGD第十篇:当神经网络遇到TGD特征
人工智能·深度学习·神经网络·表情识别·tgd·视频特征提取·特征工提取
一碗白开水一7 小时前
【模型细节】FPN经典网络模型 (Feature Pyramid Networks)详解及其变形优化
网络·人工智能·pytorch·深度学习·计算机视觉
martian6659 小时前
深度学习核心:卷积神经网络 - 原理、实现及在医学影像领域的应用
人工智能·深度学习·机器学习·cnn·卷积神经网络·dicom医学影像
_Meilinger_9 小时前
论文研读|基于图像修复的AI生成图像检测(CVPR 2025)
人工智能·深度学习·计算机视觉·ai·aigc·图像取证·生成图像检测
向左转, 向右走ˉ9 小时前
层归一化(LayerNorm)与Batch归一化(BatchNorm):从原理到实践的深度对比
人工智能·深度学习·机器学习·分类