随写transformer

作为针对序列建模的模型,RNN,LSTM在以序列为主要呈现形式的NLP任务上展现出远超CNN的卓越性能。但是仍有缺陷:

  • RNN为单向依序计算,序列需要依次输入,串行计算,限制了计算机的并行计算能力,导致时间成本过高。
  • RNN难以捕捉长期依赖 问题,即对于极长的序列,RNN难以捕捉远距离输入 之间的关系。虽然LSTM通过门机制对此进行了一定优化,但RNN对长期依赖问题的捕捉能力仍然不如人意。

针对上述两个问题,2017年,Vaswani 等人发表了论文**《Attention Is All You Need》** ,抛弃了传统的 CNN、RNN 架构,提出了一种全新的完全基于 attention 机制 的模型------Transformer ,解决了上述问题,在较小的时间成本下取得了多个任务的 the-state-of-art效果,并为自然语言处理任务提供了新的思路。

自此,attention 机制进入自然语言处理任务的主流架构,在 Transformer 的基础上,诞生了预训练-微调范式 的多种经典模型如 Bert、GPT、T5 等。当然,同样是在 Transformer 的肩膀上,引入了 RLHF 机制 、实现了大量参数建模的 ChatGPT 则带领 NLP 进入了全新的大模型时代。

但不管是预训练-微调范式的主流模型 Bert,还是大模型时代的主流模型 ChatGPT、LLaMA,Transformer 都是其最坚实的基座。

注意力公式Q与K乘积进行放缩的原因:

如果Q和K对应的维度比较大,softmax放缩时就非常容易受影响,使不同值之间的差异较大,从而影响梯度的稳定性,因此,要将Q和K乘积的结果做一个放缩。

相关推荐
guoketg1 分钟前
Vision Transformer(ViT)的讲解和面试题目讲解
人工智能·python·深度学习·vit
小oo呆8 分钟前
【学习心得】Python的Pydantic(简介)
前端·javascript·python
岚天start9 分钟前
【日志监控方案】Python脚本获取关键字日志信息并推送钉钉告警
python·钉钉·日志监控
叫我:松哥11 分钟前
基于 Flask 框架开发的在线学习平台,集成人工智能技术,提供分类练习、随机练习、智能推荐等多种学习模式
人工智能·后端·python·学习·信息可视化·flask·推荐算法
rgeshfgreh11 分钟前
Python环境管理:uv极速对决Conda全能
python
幻云201012 分钟前
Python机器学习:从入门到精通
python
热爱专研AI的学妹20 分钟前
2026世界杯观赛工具自制指南:实时比分推送机器人搭建思路
开发语言·人工智能·python·业界资讯
热心不起来的市民小周23 分钟前
测测你的牌:基于 MobileNetV2 的车牌内容检测
python·深度学习·计算机视觉
BinaryBoss26 分钟前
Python 从Maxcompute导出海量数据到文本文件(txt)或Excel
chrome·python·odps
落羽凉笙28 分钟前
Python基础(4)| 详解程序选择结构:单分支、双分支与多分支逻辑(附代码)
android·服务器·python