论文阅读——BART

Arxiv: https://arxiv.org/abs/1910.13461

一个去噪自编码器的预训练序列到序列的模型。是一个结合了双向和自回归transformers的模型。

预训练分为两个阶段:任意噪声函数破坏文本和序列模型重建原始文本

一、模型

input:被破坏的文本-->bidirectional encoder-->left-to-right autoregressive decoder-->output

标准transformers模型,encoder 6层,decoder 12层

其他细节:激活函数把ReLU换成GeLUs

1、预训练:

允许输入任意类型噪声破坏的文本,极端情况下,如果任意信息都丢失,BART等同于语言模型。

Token Masking:和BERT一样

Token Deletion:随机抽取到的token删除(Token Masking是抽取到的token用mask代替,这个是随机抽取到的token删除),模型可以学习到什么位置的token丢失了

Text Infilling:对多个文本跨度进行采样,跨度长度取自泊松分布,可以教模型预测一个跨度中缺少多少tokens

Sentence Permutation:文章句子打乱顺序

Document Rotation:文章中随机找到一个token,将文章翻转,以该token作为文章的开头

2、微调:

各下游任务微调

二、Loss:交叉熵

相关推荐
StfinnWu5 分钟前
论文阅读《GridDehazeNet: Attention-Based Multi-Scale Network for Image Dehazing》
论文阅读·深度学习·机器学习
梦醒过后说珍重11 分钟前
医疗图像超分避坑指南:为什么你不该用 `load_dataset` 下载结构化数据集?
深度学习
盼小辉丶44 分钟前
PyTorch实战(36)——PyTorch自动机器学习
人工智能·pytorch·深度学习·自动机器学习
7yewh1 小时前
Dense / 全连接层 / Gemm — 综合全局特征理解与运用
网络·人工智能·python·深度学习·cnn
智算菩萨1 小时前
AGI神话:人工通用智能的幻象如何扭曲与分散数字治理的注意力
论文阅读·人工智能·深度学习·ai·agi
梦醒过后说珍重1 小时前
Hugging Face 实战:从 Access Token 配置到突破 429 限流下载全记录
深度学习
剑穗挂着新流苏3121 小时前
107_PyTorch 实战:深度解析 nn.Conv2d 卷积层参数与应用
人工智能·深度学习
梦醒过后说珍重1 小时前
【PyTorch避坑指南】深度学习工程:如何实现消融实验的“完美复现”
深度学习
ZPC82101 小时前
PPO 示例
人工智能·pytorch·深度学习
翱翔的苍鹰1 小时前
通过LangChain Agent模拟实现美团外卖下单场景
人工智能·深度学习·语言模型·自然语言处理·langchain·vllm