An Attention Free Transformer论文参考文献


参考文献列表

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems, pages 5998--6008.

中文翻译:[1] 瓦斯瓦尼, A., 沙泽尔, N., 帕尔马, N., 乌斯基奥雷特, J., 琼斯, L., 戈麦斯, A. N., 凯撒, Ł., & 波洛苏金, I. (2017). 注意力就是一切。在神经信息处理系统进展中,第5998-6008页。

Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

中文翻译:[2] 德夫林, J., 张, M.-W., 李, K., & 图特诺娃, K. (2018). BERT:用于语言理解的深度双向变换器的预训练。arXiv预印本arXiv:1810.04805。

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.

中文翻译:[3] 拉德福德, A., 纳拉西姆汉, K., 萨利曼斯, T., & 苏茨克弗, I. (2018). 通过生成预训练改进语言理解。

Chen, M., Radford, A., Child, R., Wu, J., & Jun, H. (2020). Generative pretraining from pixels.

中文翻译:[4] 陈, M., 拉德福德, A., 奇尔德, R., 吴, J., & 俊, H. (2020). 从像素生成预训练。

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.

中文翻译:[5] 多索夫斯基, A., 贝耶尔, L., 科尔斯基科夫, A., 魏森伯恩, D., 翟, X., 安特辛纳, T., 德赫尼, M., 明德勒, M., 海戈尔德, G., 格利, S., 等. (2020). 一张图片值16x16个词:大规模图像识别的变换器。arXiv预印本arXiv:2010.11929。

Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & Jégou, H. (2020). Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877.

中文翻译:[6] 图弗龙, H., 科德, M., 杜兹, M., 马萨, F., 萨布劳罗尔斯, A., & 茹, H. (2020). 训练数据高效的图像变换器及通过注意力的蒸馏。arXiv预印本arXiv:2012.12877。

Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). Generating long sequences with sparse transformers. CoRR, abs/1904.10509.

中文翻译:[7] 奇尔德, R., 格雷, S., 拉德福德, A., & 苏茨克弗, I. (2019). 用稀疏变换器生成长序列。CoRR, abs/1904.10509。

Kitaev, N., Kaiser, L., & Levskaya, A. (2020). Reformer: The efficient transformer. ArXiv, abs/2001.04451.

中文翻译:[8] 基塔耶夫, N., 凯撒, L., & 列夫斯卡娅, A. (2020). 改革者:高效的变换器。ArXiv, abs/2001.04451。

Rae, J. W., Potapenko, A., Jayakumar, S. M., & Lillicrap, T. (2020). Compressive transformers for long-range sequence modelling. ArXiv, abs/1911.05507.

中文翻译:[9] 雷, J. W., 波塔彭科, A., 杰亚库马尔, S. M., & 利利克拉普, T. (2020). 压缩变换器用于长程序列建模。ArXiv, abs/1911.05507。

Wang, S., Li, B. Z., Khabsa, M., Fang, H., & Ma, H. (2020). Linformer: Self-attention with linear complexity. ArXiv, abs/2006.04768.

中文翻译:[10] 王, S., 李, B. Z., 哈布萨, M., 方, H., & 马, H. (2020). Linformer:具有线性复杂度的自注意力。ArXiv, abs/2006.04768。

Katharopoulos, A., Vyas, A., Pappas, N., & Fleuret, F. (2020). Transformers are rnns: Fast autoregressive transformers with linear attention. In Proceedings of the International Conference on Machine Learning (ICML).

中文翻译:[11] 卡萨罗普洛斯, A., 维亚斯, A., 帕帕斯, N., & 弗勒雷特, F. (2020). 变换器是递归神经网络:具有线性注意力的快速自回归变换器。在国际机器学习会议(ICML)的论文集。

Tay, Y., Bahri, D., Metzler, D., Juan, D.-C., Zhao, Z., & Zheng, C. (2020). Synthesizer: Rethinking self-attention in transformer models.

中文翻译:[12] 泰, Y., 巴赫里, D., 梅茨勒, D., 胡安, D.-C., 赵, Z., & 郑, C. (2020). 合成器:重新思考变换器模型中的自注意力。

Choromanski, K., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., Hawkins, P., Davis, J., Mohiuddin, A., Kaiser, L., Belanger, D., Colwell, L., & Weller, A. (2020). Rethinking attention with performers.

中文翻译:[13] 科罗曼斯基, K., 利霍舍尔托夫, V., 多汉, D., 宋, X., 盖恩, A., 萨洛斯, T., 霍金斯, P., 戴维斯, J., 莫希乌丁, A., 凯撒, L., 贝兰杰, D., 科尔韦尔, L., & 韦勒, A. (2020). 用表演者重新思考注意力。

Peng, H., Pappas, N., Yogatama, D., Schwartz, R., Smith, N., & Kong, L. (2021). Random feature attention. In International Conference on Learning Representations.

中文翻译:[14] 彭, H., 帕帕斯, N., 约加塔马, D., 施瓦茨, R., 史密斯, N., & 孔, L. (2021). 随机特征注意力。在国际学习表示会议。

Bello, I. (2021). Lambdanetworks: Modeling long-range interactions without attention. In International Conference on Learning Representations.

中文翻译:[15] 贝洛, I. (2021). Lambda网络:无注意力的长程相互作用建模。在国际学习表示会议。

Tay, Y., Dehghani, M., Bahri, D., & Metzler, D. (2020). Efficient transformers: A survey.

中文翻译:[16] 泰, Y., 德赫尼, M., 巴赫里, D., & 梅茨勒, D. (2020). 高效变换器:综述。

Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, Ł., Shazeer, N., Ku, A., & Tran, D. (2018). Image transformer. arXiv preprint arXiv:1802.05751.

中文翻译:[17] 帕尔马, N., 瓦斯瓦尼, A., 乌斯基奥雷特, J., 凯撒, Ł., 沙泽尔, N., 库, A., & 特兰, D. (2018). 图像变换器。arXiv预印本arXiv:1802.05751。

Wang, H., Zhu, Y., Green, B., Adam, H., Yuille, A., & Chen, L.-C. (2020). Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. ArXiv, abs/2003.07853.

中文翻译:[18] 王, H., 祝, Y., 格林, B., 亚当, H., 尤尔, A., & 陈, L.-C. (2020). 轴向深度实验室:用于全景分割的独立轴向注意力。ArXiv, abs/2003.07853。

Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., & Liu, W. (2019). Ccnet: Criss-cross attention for semantic segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603--612.

中文翻译:[19] 黄, Z., 王, X., 黄, L., 黄, C., 韦, Y., & 刘, W. (2019). CCNet:用于语义分割的交叉注意力。2019 IEEE/CVF国际计算机视觉会议,第603-612页。

Zhu, Z., Xu, M., Bai, S., Huang, T., & Bai, X. (2019). Asymmetric non-local neural networks for semantic segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 593--602.

中文翻译:[20] 祝, Z., 徐, M., 白, S., 黄, T., & 白, X. (2019). 非对称非局部神经网络用于语义分割。2019 IEEE/CVF国际计算机视觉会议,第593-602页。

Huang, L., Yuan, Y., Guo, J., Zhang, C., Chen, X., & Wang, J. (2019). Interlaced sparse self-attention for semantic segmentation. ArXiv, abs/1907.12273.

中文翻译:[21] 黄, L., 元, Y., 郭, J., 张, C., 陈, X., & 王, J. (2019). 交错稀疏自注意力用于语义分割。ArXiv, abs/1907.12273。

Ramachandran, P., Parmar, N., Vaswani, A., Bello, I., Levskaya, A., & Shlens, J. (2019). Stand-alone self-attention in vision models. ArXiv, abs/1906.05909.

中文翻译:[22] 拉马钱德兰, P., 帕尔马, N., 瓦斯瓦尼, A., 贝洛, I., 列夫斯卡娅, A., & 施伦斯, J. (2019). 视觉模型中的独立自注意力。ArXiv, abs/1906.05909。

Sukhbaatar, S., Grave, E., Bojanowski, P., & Joulin, A. (2019). Adaptive attention span in transformers. In ACL.

中文翻译:[23] 苏赫巴塔尔, S., 格拉夫, E., 博扬诺夫斯基, P., & 朱林, A. (2019). 变换器中的自适应注意力跨度。在ACL。

Roy, A., Saffar, M., Vaswani, A., & Grangier, D. (2020). Efficient content-based sparse attention with routing transformers. ArXiv, abs/2003.05997.

中文翻译:[24] 罗伊, A., 萨法尔, M., 瓦斯瓦尼, A., & 格朗杰, D. (2020). 用路由变换器实现高效基于内容的稀疏注意力。ArXiv, abs/2003.05997。

Wu, F., Fan, A., Baevski, A., Dauphin, Y., & Auli, M. (2019). Pay less attention with lightweight and dynamic convolutions. ArXiv, abs/1901.10430.

中文翻译:[25] 吴, F., 范, A., 贝夫斯基, A., 多芬, Y., & 奥利, M. (2019). 用轻量级和动态卷积减少注意力。ArXiv, abs/1901.10430。

Tay, Y., Bahri, D., Yang, L., Metzler, D., & Juan, D. (2020). Sparse sinkhorn attention. ArXiv, abs/2002.11296.

中文翻译:[26] 泰, Y., 巴赫里, D., 杨, L., 梅茨勒, D., & 胡安, D. (2020). 稀疏Sinkhorn注意力。ArXiv, abs/2002.11296。

Tolstikhin, I., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T., Yung, J., Steiner, A., Keysers, D., Uszkoreit, J., Lucic, M., & Dosovitskiy, A. (2021). Mlp-mixer: An all-mlp architecture for vision.

中文翻译:[27] 托尔斯蒂希宁, I., 霍尔斯比, N., 科尔斯基科夫, A., 贝耶尔, L., 翟, X., 安特辛纳, T., 于恩, J., 施泰纳, A., 凯瑟斯, D., 乌斯基奥雷特, J., 卢西克, M., & 多索夫斯基, A. (2021). MLP-Mixer:一种全MLP的视觉架构。

Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay attention to mlps.

中文翻译:[28] 刘, H., 戴, Z., 苏, D. R., & 莱, Q. V. (2021). 关注MLPs。

Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.

中文翻译:[29] 巴, J. L., 基罗斯, J. R., & 希顿, G. E. (2016). 层归一化。arXiv预印本arXiv:1607.06450。

Loshchilov, I., & Hutter, F. (2019). Decoupled weight decay regularization.

中文翻译:[30] 洛什奇洛夫, I., & 胡特, F. (2019). 解耦权重衰减正则化。

Mahoney, M. (2011). Large text compression benchmark.

中文翻译:[31] 马霍尼, M. (2011). 大文本压缩基准。

Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q. V., & Salakhutdinov, R. (2019). Transformer-xl: Attentive language models beyond a fixed-length context. ArXiv, abs/1901.02860.

中文翻译:[32] 戴, Z., 杨, Z., 杨, Y., 卡本内尔, J., 莱, Q. V., & 萨拉胡特迪诺夫, R. (2019). Transformer-XL:超越固定长度上下文的注意力语言模型。ArXiv, abs/1901.02860。

He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep residual learning for image recognition.

中文翻译:[33] 何, K., 张, X., 任, S., & 孙, J. (2015). 用于图像识别的深度残差学习。

Jang, E., Gu, S., & Poole, B. (2017). Categorical reparameterization with gumbel-softmax.

中文翻译:[34] 詹, E., 古, S., & 波尔, B. (2017). 用Gumbel-Softmax进行分类重参数化。

相关推荐
__如果11 分钟前
2024 CVPR Highlight Learning-Feedback
人工智能
ZHOU_WUYI11 分钟前
Autogen_core 测试代码:test_cache_store.py
人工智能·agent
纠结哥_Shrek20 分钟前
独立成分分析 (ICA):用于信号分离或降维
人工智能·python·算法
因_果_律24 分钟前
基于 AWS SageMaker 对 DeepSeek-R1-Distilled-Llama-8B 模型的精调与实践
人工智能·云计算·llama·aws·deepseek
QQ_77813297425 分钟前
AI 浪潮席卷中国年,开启科技新春新纪元
人工智能·机器学习
图扑软件34 分钟前
双子塔楼宇自控可视化管理
前端·javascript·人工智能·智慧城市·数字孪生·可视化·楼宇自控
幻风_huanfeng1 小时前
神经网络梯度爆炸的原因及解决方案
人工智能·深度学习·神经网络
纪伊路上盛名在1 小时前
ML基础-Jupyter notebook中的魔法命令
linux·服务器·人工智能·python·jupyter
洞见新研社2 小时前
人形机器人,自动驾驶“老炮”创业第二站
人工智能·科技
kakaZhui2 小时前
【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention
人工智能·python·chatgpt·aigc·llama