论文地址:
https://arxiv.org/pdf/2405.13956
-
引言
- Transformers在序列建模方面的突破
- Transformers在推理阶段的计算成本问题
- Aaren模型的目标:保持Transformer性能,同时提高计算效率
-
背景
- RNN及其优缺点
- 注意力机制及其优缺点
-
方法
- 将注意力视为RNN,包括计算注意力输出的两种方式
- 将流行的基于注意力模型视为RNN变体
- 提出一种基于并行前缀和算法的注意力多对多RNN高效计算方法
- Aaren模型介绍
-
实验
- 在38个数据集上比较Aaren和Transformer的性能和计算效率
- 结果表明Aaren性能接近Transformer,同时计算效率更高
-
相关工作
-
结论
-
RNNs和注意力机制
- RNNs在序列建模中的优势和局限性
- 注意力机制的优势和局限性
-
注意力的RNN视角
- 将注意力视为RNN,并分析其多对一和多对多RNN输出计算方式
- 将流行的基于注意力模型视为RNN变体
-
基于并行前缀和算法的注意力多对多RNN高效计算方法
- 提出基于并行前缀和算法的注意力多对多RNN高效计算方法
-
Aaren模型
- Aaren模型的介绍,包括其堆叠方式
- Aaren模型的训练和推理效率优势
-
Aaren和Transformer的性能和计算效率对比
- 在38个数据集上对比了Aaren和Transformer的性能和计算效率
- Aaren模型在性能接近Transformer的同时,具有更高的计算效率
-
相关工作
- 相关工作的简要概述
是有附录的论文